生成语言模型的优化框架InfAlign
背景与挑战
在从训练到实际应用的过程中,生成式语言模型面临着诸多挑战。特别是在推理阶段,如何实现模型的最佳性能是一个重大问题。当前策略如基于人类反馈的强化学习(RLHF)主要集中在提升模型的成功率上,往往忽视了推理过程中的解码策略,例如Best-of-N采样和可控解码等方法。这种训练目标与实际应用之间的差距会导致效率低下,并影响输出的质量和可靠性。
InfAlign框架介绍
为解决这些问题,Google DeepMind和Google Research团队开发了一种名为InfAlign的机器学习框架,该框架旨在将推理策略整合进对齐过程中。InfAlign通过调整奖励函数来针对特定的推理策略进行优化,以弥合训练与应用之间的差距。具体而言,它在推理过程中引入了最佳解码方法(Best-of-N采样)和最差解码方法(常用于安全性评估),确保模型在受控环境和现实场景中都能表现出色。
InfAlign核心机制
- Calibrated and Transformed Reinforcement Learning (CTRL)算法:该算法包含三个步骤:
- 校准奖励分数;
- 根据推理策略转换这些得分;
- 解决KL正则化优化问题。
通过定制化的奖赏变换来匹配具体场景,InfAlign确保了训练目标与推理需求的一致性。这不仅提升了推理阶段的成功率,还保持了计算效率,并提高了模型的鲁棒性。
实验结果
在使用Anthropic的有用性和无害性数据集进行的实验中,InfAlign的效果得到了验证。相比现有方法,InfAlign将Best-of-N采样的推理成功率提高了8-12个百分点,在最差解码(Worst-of-N)的安全评估上提升了4-9个百分点。这些改进源自其校准奖励变换的有效应用,解决了奖赏模型的失调问题,并确保了在不同推理场景下的稳定表现。
总结
InfAlign代表了一种对齐生成式语言模型的重大进步。通过整合意识推理策略,它成功应对了训练与部署之间的关键差异。其坚实的理论基础和实证结果表明其具有全面改善AI系统对齐的潜力。