领先AI模型在复杂物理任务中表现不佳,仍需人类协助
核心发现
近期,由全球50多位物理学家开发的"CritPt"基准测试评估了顶级AI模型处理复杂、未发表物理研究问题的能力。测试模拟了博士研究生早期所需的独立研究水平,结果显示即使是最先进的AI系统也表现令人失望。
测试结果详情
模型表现
- Gemini3Pro(谷歌):准确率9.1,排名第一
- GPT-5(OpenAI):得分4.9,紧随其后
测试设计特点
- 涵盖11个领域的71个研究挑战
- 包括量子物理、天体物理、高能物理和生物物理
- 所有问题基于未发表的研究内容,防止模型猜测或检索
严格评估标准
采用"连续解决率"标准,要求模型在五次尝试中至少四次提供正确答案。在此标准下,所有模型性能显著下降,突显其在复杂问题推理中的脆弱性。
问题分析
模型局限性
- 无法解决大多数任务,特别是涉及复杂研究挑战的问题
- 经常生成看似正确但包含细微错误的答案
- 可能误导研究人员,增加审核工作负担
可靠性挑战
模型在复杂问题推理中的不可靠性对研究工作流程构成挑战。
未来展望
现实定位
研究团队指出,当前大模型在独立解决开放式物理问题方面仍不足,更现实的目标是将其视为"研究助手",在特定工作流程中提供帮助。
OpenAI发展计划
- 2026年9月:推出研究实习系统
- 2028年3月:推出完全自主的研究系统
公司声称GPT-5已在帮助研究人员节省时间。
关键要点
- 顶级AI模型在复杂物理任务中表现不尽如人意,最高准确率仅达9.1
- "CritPt"基准测试覆盖多个物理领域,所有问题基于未发表研究内容
- 未来AI更可能充当研究助手角色,而非完全取代人类专家,帮助自动化特定流程
测试日期:2025年11月24日
