微软14B参数模型挑战671B巨型AI智能体：强化学习重新定义数学推理

模型突破性表现

微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注。这个仅140亿参数的模型通过创新的智能体强化学习技术，在多项数学基准测试中超越了拥有6710亿参数的DeepSeek-R1模型。

技术创新亮点

革命性推理机制

摒弃传统思维链方法：采用智能体交互机制
自主规划推理过程：能够使用Python代码执行工具进行验证
动态调整策略：根据反馈调整推理步骤，避免传统CoT方法的错误累积问题

权威基准测试表现

AIME24数据集

rStar2-Agent：80.6% 通过率
DeepSeek-R1：79.8%
o3-mini：79.6%
Claude Opus4.0：77.0%

其他数据集表现

AIME25：69.8% 准确率
HMMT25：52.7% 准确率

效率优势显著

响应长度优化

AIME24测试：平均约9,340个token
AIME25测试：平均约10,943个token
仅为DeepSeek-R1的一半，展现更高推理效率

训练效率突破

仅需1周完成510个强化学习步骤
训练资源：64个MI300X GPU
基础设施支持：每步45,000个并发工具调用
平均延迟：仅0.3秒

技术创新细节

GRPO-RoC算法

引入专门处理代码执行环境噪声的创新算法，通过"正确时重采样"策略保留高质量推理轨迹，显著提升训练效果。

泛化能力验证

在GPQA-Diamond科学推理基准测试中超越DeepSeek-V3，同时在BFCL v3工具任务以及IFEval、Arena-Hard等通用测试中表现优异，证明智能体强化学习对通用能力的积极影响。

开源与影响

微软已开源rStar2-Agent的代码和训练方法，基于VERL框架实现多阶段强化学习训练。这一突破表明：

通过智能训练策略，小模型可在特定任务上媲美大模型性能
为资源有限的研究者和开发者提供新的可能性

行业意义

这一技术突破重新定义了参数规模与性能的关系，展示了强化学习在专业化任务中的巨大潜力，为AI模型的高效化发展指明了新方向。

火龙果频道

近期新闻

AI-NEWS · 2025年 9月 9日

微软AI挑战巨擘

微软14B参数模型挑战671B巨型AI智能体：强化学习重新定义数学推理

模型突破性表现

技术创新亮点

革命性推理机制

权威基准测试表现

AIME24数据集

其他数据集表现

效率优势显著

响应长度优化

训练效率突破

技术创新细节

GRPO-RoC算法

泛化能力验证

开源与影响

行业意义

您可能还喜欢...

AI-NEWS · 2025年 9月 9日

微软14B参数模型挑战671B巨型AI智能体：强化学习重新定义数学推理

模型突破性表现

技术创新亮点

革命性推理机制

权威基准测试表现

AIME24数据集

其他数据集表现

效率优势显著

响应长度优化

训练效率突破

技术创新细节

GRPO-RoC算法

泛化能力验证

开源与影响

行业意义

您可能还喜欢...

每天写代码 [译]

中国AI 2025超车

苹果中文智能4月上线