AI-NEWS · 2025年 11月 25日

AI模型仍需人工辅助

领先AI模型在复杂物理任务中表现不佳,仍需人类协助

核心发现

近期,由全球50多位物理学家开发的"CritPt"基准测试评估了顶级AI模型处理复杂、未发表物理研究问题的能力。测试模拟了博士研究生早期所需的独立研究水平,结果显示即使是最先进的AI系统也表现令人失望。

测试结果详情

模型表现

  • Gemini3Pro(谷歌):准确率9.1,排名第一
  • GPT-5(OpenAI):得分4.9,紧随其后

测试设计特点

  • 涵盖11个领域的71个研究挑战
  • 包括量子物理、天体物理、高能物理和生物物理
  • 所有问题基于未发表的研究内容,防止模型猜测或检索

严格评估标准

采用"连续解决率"标准,要求模型在五次尝试中至少四次提供正确答案。在此标准下,所有模型性能显著下降,突显其在复杂问题推理中的脆弱性。

问题分析

模型局限性

  • 无法解决大多数任务,特别是涉及复杂研究挑战的问题
  • 经常生成看似正确但包含细微错误的答案
  • 可能误导研究人员,增加审核工作负担

可靠性挑战

模型在复杂问题推理中的不可靠性对研究工作流程构成挑战。

未来展望

现实定位

研究团队指出,当前大模型在独立解决开放式物理问题方面仍不足,更现实的目标是将其视为"研究助手",在特定工作流程中提供帮助。

OpenAI发展计划

  • 2026年9月:推出研究实习系统
  • 2028年3月:推出完全自主的研究系统

公司声称GPT-5已在帮助研究人员节省时间。

关键要点

  1. 顶级AI模型在复杂物理任务中表现不尽如人意,最高准确率仅达9.1
  2. "CritPt"基准测试覆盖多个物理领域,所有问题基于未发表研究内容
  3. 未来AI更可能充当研究助手角色,而非完全取代人类专家,帮助自动化特定流程

测试日期:2025年11月24日

火龙果频道