AI-NEWS · 2025年 7月 17日

字节跳动开源4B数学推理模型

字节跳动Seed团队联合港大、复旦推出POLARIS强化学习训练方法

核心突破

  • 方法名称:POLARIS(强化学习训练方法)
  • 研发团队:字节跳动Seed团队 × 香港大学 × 复旦大学
  • 技术亮点:通过Scaling RL策略显著提升小模型数学推理能力,达到媲美大模型的水平

性能表现

测试集 Qwen3-4B准确率 对比优势
AIME25 79.4% 超越部分闭源大模型
AIME24 81.2% 优于同规模开源模型

部署优势:4B参数模型可流畅运行在消费级显卡上

关键技术

  1. 动态训练策略

    • 定制化训练数据与超参数
    • 动态调整训练数据难度分布(偏难题方向)
    • 实时淘汰过于简单的样本
  2. 采样控制优化

    • 创新温度初始化方法
    • 动态调节采样温度(平衡性能与生成多样性)
  3. 长文本处理

    • 采用长度外推技术
    • 改进RoPE位置编码
    • 多阶段RL训练(逐步扩展上下文窗口)

开源情况

  • 已公开:训练方法/数据/代码/实验模型
  • 验证平台:多个主流推理评估集
  • 资源链接:
    • GitHub仓库
    • Hugging Face主页

注:该方法在不同规模/架构的模型上均观察到显著性能提升

火龙果频道