AI-NEWS · 2025年 1月 10日

微软与清华北大推出rStar-数学技术:小模型大胜利!

Microsoft推出rStar-Math技术,显著提升小型语言模型的数学能力

微软近日宣布其新的rStar-Math技术,这是一种创新推理方法,可以应用于小型语言模型(SLMs),大幅提升它们在解决数学问题方面的表现,在某些情况下甚至超越了OpenAI的o1-preview模型。这项技术目前仍处于研究阶段,并已发表了一篇相关论文于arXiv.org上,作者团队包括来自微软、北京大学和清华大学的八位研究员。

测试与结果

rStar-Math技术被应用于几个小型开源模型,如Microsoft的Phi-3迷你模型,阿里巴巴的Qwen-1.5B(15亿参数模型)和Qwen-7B(70亿参数模型)。测试结果显示所有参与的模型性能都得到了显著提升,在MATH基准测试中,rStar-Math甚至超过了OpenAI此前领先的o1-preview模型。

核心技术与应用

rStar-Math的核心在于使用蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS),这种方法模拟了人类深度思考的方式,通过逐步精炼数学问题的解决方案来帮助小型模型自我进化。研究团队不仅应用MCTS,还要求这些模型在输出过程中提供自然语言推理步骤和Python代码,这有助于有效训练模型。

经过四轮自演化后,rStar-Math在多个基准测试中取得了显著成就。例如,在MATH基准测试中,Qwen2.5-Math-7B的准确性从58.8提升到了90%,超过了OpenAI的o1-preview;在美国邀请数学考试(AIME)中,该模型解决了53.3个问题,相当于高中竞赛中的前20名。

行业意义

近年来,人工智能创新主要依靠增加模型参数实现,但随之而来的高昂成本引发了对这种扩张模式可持续性的质疑。通过rStar-Math,微软展示了小型模型的潜力,强调了高效方向的重要性。这项技术的发布表明,专门的小型模型可以作为大型系统的强大替代品,为中型企业及学术研究人员提供前沿能力,而不承担巨大的财务和环境成本。

后续计划

研究团队计划将相关代码和数据发布于GitHub上,尽管目前仍在内部审核阶段且尚未公开。社区对此技术表现出极大兴趣,并认为其逐步推理方法结合MCTS具有广泛的应用前景,尤其是在几何证明和符号推理等领域。

参考资料

Source:https://www.aibase.com/news/14611