AI-NEWS · 2025年 9月 9日

微软AI挑战巨擘

微软14B参数模型挑战671B巨型AI智能体:强化学习重新定义数学推理

模型突破性表现

微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注。这个仅140亿参数的模型通过创新的智能体强化学习技术,在多项数学基准测试中超越了拥有6710亿参数的DeepSeek-R1模型。

技术创新亮点

革命性推理机制

  • 摒弃传统思维链方法:采用智能体交互机制
  • 自主规划推理过程:能够使用Python代码执行工具进行验证
  • 动态调整策略:根据反馈调整推理步骤,避免传统CoT方法的错误累积问题

权威基准测试表现

AIME24数据集

  • rStar2-Agent:80.6% 通过率
  • DeepSeek-R1:79.8%
  • o3-mini:79.6%
  • Claude Opus4.0:77.0%

其他数据集表现

  • AIME25:69.8% 准确率
  • HMMT25:52.7% 准确率

效率优势显著

响应长度优化

  • AIME24测试:平均约9,340个token
  • AIME25测试:平均约10,943个token
  • 仅为DeepSeek-R1的一半,展现更高推理效率

训练效率突破

  • 仅需1周完成510个强化学习步骤
  • 训练资源:64个MI300X GPU
  • 基础设施支持:每步45,000个并发工具调用
  • 平均延迟:仅0.3秒

技术创新细节

GRPO-RoC算法

引入专门处理代码执行环境噪声的创新算法,通过"正确时重采样"策略保留高质量推理轨迹,显著提升训练效果。

泛化能力验证

在GPQA-Diamond科学推理基准测试中超越DeepSeek-V3,同时在BFCL v3工具任务以及IFEval、Arena-Hard等通用测试中表现优异,证明智能体强化学习对通用能力的积极影响。

开源与影响

微软已开源rStar2-Agent的代码和训练方法,基于VERL框架实现多阶段强化学习训练。这一突破表明:

  • 通过智能训练策略,小模型可在特定任务上媲美大模型性能
  • 为资源有限的研究者和开发者提供新的可能性

行业意义

这一技术突破重新定义了参数规模与性能的关系,展示了强化学习在专业化任务中的巨大潜力,为AI模型的高效化发展指明了新方向。

火龙果频道