字节跳动Seed团队联合港大、复旦推出POLARIS强化学习训练方法
核心突破
- 方法名称:POLARIS(强化学习训练方法)
- 研发团队:字节跳动Seed团队 × 香港大学 × 复旦大学
- 技术亮点:通过Scaling RL策略显著提升小模型数学推理能力,达到媲美大模型的水平
性能表现
测试集 | Qwen3-4B准确率 | 对比优势 |
---|---|---|
AIME25 | 79.4% | 超越部分闭源大模型 |
AIME24 | 81.2% | 优于同规模开源模型 |
部署优势:4B参数模型可流畅运行在消费级显卡上
关键技术
-
动态训练策略
- 定制化训练数据与超参数
- 动态调整训练数据难度分布(偏难题方向)
- 实时淘汰过于简单的样本
-
采样控制优化
- 创新温度初始化方法
- 动态调节采样温度(平衡性能与生成多样性)
-
长文本处理
- 采用长度外推技术
- 改进RoPE位置编码
- 多阶段RL训练(逐步扩展上下文窗口)
开源情况
- 已公开:训练方法/数据/代码/实验模型
- 验证平台:多个主流推理评估集
- 资源链接:
- GitHub仓库
- Hugging Face主页
注:该方法在不同规模/架构的模型上均观察到显著性能提升