AI-NEWS · 2024年 11月 27日

佛教优化器C-AdamW:一行代码加速模型训练1.47倍!

深度学习优化器C-AdamW:平衡速度与能耗的秘密武器

在人工智能领域,“努力造就奇迹”似乎已经成为了一条金科玉律。模型越大、数据越多,计算能力越强,则越接近智能的圣杯。然而,在这种快速进步的背后隐藏着巨大的成本和能源消耗压力。

为了提高AI训练效率,科学家们一直在寻找更强大的优化器,就像一个教练指导模型参数持续优化并最终达到最佳状态。AdamW作为Transformer预训练的默认优化器,多年来一直是业界标准。然而,随着模型规模的不断增大,AdamW也开始显露出其局限性。

中国团队的秘密武器:C-AdamW

全由中国科研人员研发出了一项名为“谨慎版AdamW(Cautious AdamW)”的新技术——简称C-AdamW!这个名字听起来非常有“禅意”,不是吗?其实,C-AdamW的核心理念正是“三思而后行”。

工作原理及优势

将模型参数想象成一群精力充沛的孩子,他们总是想四处奔跑。AdamW就像一个尽职尽责的老师,努力引导孩子们朝着正确的方向前进。但有时孩子会过于兴奋,跑错方向,浪费时间和能量。

而C-AdamW就像是一个智慧的老者,戴着“火眼金睛”的眼镜,能够准确判断更新的方向是否正确。如果方向错误,它将果断叫停,防止模型偏离正确的路径更远。这种“谨慎”策略确保了每次更新都能有效减少损失函数值,从而加快模型的收敛速度。

实验结果显示,在Llama和MAE预训练中,C-AdamW提升了1.47倍的训练速度!更重要的是,C-AdamW几乎没有带来额外的计算开销;它只需要对现有代码进行简单的单行修改。这意味着开发人员可以轻松将C-AdamW应用于多种模型训练中,享受到“快”与“稳”的双重体验。

此外,C-AdamW在保持Adam的哈密顿函数的同时,确保了通过李亚普诺夫分析下的收敛性保障。这不仅让C-AdamW更快,而且更加稳定,避免了如训练崩溃等问题的发生。

未来展望

当然,“禅意”并不意味着“不求上进”。研究团队表示他们将继续探索更丰富的功能,并在特征空间而非参数空间中应用掩码,以进一步提升C-AdamW的性能。可以预见的是,C-AdamW将成为深度学习领域的新宠儿,为大规模模型训练带来革命性的变化!

论文链接:GitHub: 点击访问原文

版权所有©AIbase Base 2024

Source:https://www.aibase.com/news/13532