AI-NEWS · 2025年 8月 27日

苹果推新AI训练法

苹果推出新型AI训练方法:用任务清单替代人工评分,显著提升模型性能

核心创新

苹果研究团队在最新论文中提出名为"基于清单反馈的强化学习"(Reinforcement Learning from Checklist Feedback, RLCF)的创新训练方法。该方法通过用具体的任务清单替代传统的人工喜欢/不喜欢评分机制,显著提升了大语言模型执行复杂指令的能力。

技术对比

  • 传统方法:RLHF(基于人类反馈的强化学习)主要依赖人工喜欢或不喜欢评价
  • 创新方法:RLCF为每个用户指令生成详细清单,对每个项目进行0-100分评分,并以此指导模型优化

实验验证

研究团队选择强指令跟随模型Qwen2.5-7B-Instruct作为测试对象,在五个常见评估基准上进行了全面验证。测试结果显示:

  • FollowBench测试:硬满意度提升4个百分点
  • InFoBench评分:提高6分
  • Arena-Hard胜率:增加3分
  • 特定任务:性能提升最高达8.2%

RLCF是唯一在所有测试项目中都实现性能提升的训练方法。

技术实现细节

清单生成过程

  • 使用更大规模的Qwen2.5-72B-Instruct模型
  • 结合现有研究方法
  • 构建名为"WildChecklists"的专用数据集,包含13万条指令

清单设计特点

  • 设计为清晰的二元判断项目(如"是否翻译成西班牙语")
  • 大模型对每个候选答案单独评分
  • 经过综合加权处理后形成训练奖励信号
  • 指导小模型的学习和优化过程

方法局限性

  1. 计算资源需求:需要更强大的模型作为基准,在计算资源有限的场景中可能面临实施困难
  2. 适用范围:专门设计用于提升复杂指令执行能力,不用于安全对齐目的,无法替代现有的安全评估和调优机制
  3. 通用性验证:RLCF方法对其他类型AI任务的适用性仍需进一步实验验证

行业影响

行业专家认为,苹果提出的RLCF方法为AI模型训练提供了新思路,特别是在处理复杂多步骤任务方面显示出明显优势。随着技术的进一步改进,该方法有望在实际应用中发挥更大作用。

发布日期:2025年8月26日
研究状态:该方法目前仍处于研究阶段,尚未投入商业化应用

火龙果频道