AI-NEWS · 2025年 12月 18日

AI科研新基准

AI科学推理新基准:FrontierScience评估模型科研能力

核心摘要

在科学研究中,推理能力至关重要。随着AI模型能力不断提升,评估其在科研中的深度推理能力已成为一个重要议题。为此,业界推出了新的评估基准——FrontierScience,旨在评估AI在物理、化学、生物学等领域的专家级科学推理能力。

背景:AI在科研中的进展

近期,AI模型在多个重要领域取得了里程碑式成果:

  • 在国际数学和信息学奥林匹克竞赛中表现出色。
  • GPT-5等先进模型有效加速了真实的科研工作流,例如用于跨学科文献检索和复杂数学证明,将研究时间从数天或数周缩短至数小时。

FrontierScience基准详解

设计目标

专注于评估专家级的科学推理能力,帮助模型成为科学发现中可靠的合作伙伴。

核心构成

  • 问题数量:包含数百个经过专家验证的挑战性问题。
  • 两条问题轨道
    1. 奥林匹克版:旨在衡量奥林匹克式的科学推理能力。
    2. 研究版:旨在衡量真实世界的科学研究能力。

初步评估结果

初步评估显示,GPT-5.2在两个模块中均表现优异:

  • 奥林匹克模块得分:77
  • 研究模块得分:25

现状与挑战

  • 当前能力:现有模型已能支持研究过程中的结构化推理,科学家利用这些模型加速研究进程。
  • 主要局限:在开放式思维能力方面仍有提升空间。目前,问题的框架构建和验证仍需依赖人类判断。

未来方向

未来将继续改进FrontierScience基准,并扩展其应用领域。


本文信息来源于AIbase,发布日期:2025年12月17日。

火龙果频道