AI大模型在数学能力上的表现不佳
测试背景
- 最近一道简单的小学数学题“9.11和9.9哪个大”让许多AI大模型翻车。
- 在12个国内外知名的AI大模型中,8个模型回答错误。
测试结果
- 答对的模型(4个):阿里通义千问、百度文心一言、Minimax、腾讯元宝。
- 答错的模型(8个):ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量。
问题分析
- 大多数大模型在比较小数点后的数字时,错误地认为9.11大于9.9,即便是在明确限定为数学语境的情况下。
- 这暴露了大模型在数学能力上的短板。
行业内看法
- 一些行业人士认为,大模型在数学问题上的表现不佳是因为它们设计上更像文科生而不是理科生。生成式语言模型通过预测下一个词的方式进行训练,在处理语言数据时表现出色,但在数学推理方面显得力不从心。
官方回应
- 月之暗面回应称,人类对大模型能力的探索还处于早期阶段。
- 强调边界案例(Corner Case)的发现有助于了解大模型能力的边界,但彻底解决问题需要增强底层基础模型的智能水平,使其在各种复杂和极端情况下依然表现出色。
未来展望
- 专家认为,要提升大模型的数学能力,关键在于训练语料。
- 大语言模型主要通过互联网文本数据进行训练,而这些数据中数学问题和解决方案相对较少。
- 因此,未来大模型的训练需要更加体系化,尤其是在复杂推理方面。
Source:https://www.aibase.com/news/10279