AI-NEWS · 2025年 1月 16日

阿里Qwen团队发布新模型,提升数学推理能力

Alibaba Qwen团队发布数学推理新进展

摘要

阿里巴巴Qwen团队最近发表了一篇题为“从开发过程奖励模型中的经验教训”的论文,并发布了两个新的7B和72B参数的Qwen2.5-Math-PRM系列模型。这些模型通过创新技术突破了现有PRM框架在数学推理方面的限制,显著提高了推理模型的准确性和泛化能力。

背景

大型语言模型(LLMs)在数学推理方面面临挑战,特别是在中间推理步骤中的错误会严重影响最终输出的准确性。这种情况尤其影响教育和科学计算等领域,这些领域对精度有极高的要求。传统的评估方法如Best-of-N策略未能充分捕捉推理过程的复杂性,因此出现了过程奖励模型(PRM),以更详细地监督推理过程。

新技术和挑战

构建高效的PRM面临数据标注和评估方法上的挑战,而现有模型尚未完全解决这些问题。Qwen团队结合了蒙特卡洛(MC)估计与“LLM作为评判者”的机制,这种混合方法增强了逐步骤注释的质量,使得PRM能够更有效地识别并减少数学推理中的错误。

技术细节

  • 共识过滤:只有当MC估计和LLM作为评判者都同意某一步骤正确时,数据才会被保留,这显著减少了训练噪声。
  • 硬标注:通过双机制验证的确定性标签增强了模型区分有效与无效推理步骤的能力。
  • 高效的数据利用:结合MC估计和LLM作为评判者的共识过滤策略确保了高质量数据的同时保持可扩展性。

模型性能

Qwen2.5-Math-PRM系列在多个评估指标上表现出色,例如72B模型的F1分数达到了78.3分,超越了许多开源替代方案。特别是在需要逐步骤错误识别的任务中,其表现甚至优于专有模型如GPT-4-0806。

未来展望

Qwen团队通过解决PRM开发中的挑战,如数据标注噪声和过程到结果的偏差,提供了一个实用框架来提高推理准确性和可靠性。随着技术的发展,未来的PRM模型将在更广泛的AI应用中发挥重要作用,提升机器推理系统的可靠性和有效性。

Source:https://www.aibase.com/news/14764