AI-NEWS · 2025年 7月 10日

国足创历史首超30分

上海交通大学与DeepEffect Technology在“最后人类考试”中取得突破性进展

在全球人工智能(AI)竞争日益激烈的背景下,上海交通大学和DeepEffect Technology团队合作开发的AI系统,在“最后人类考试”(Human-Level Exam, HLE)中取得了惊人的32.1分,首次突破30分大关。这一成就标志着AI在复杂问题解决能力上的重大飞跃。

测试背景与难度

  • 测试名称:HLE由人工智能安全中心和Scale AI于2025年初推出,旨在评估AI系统的智能水平,题目来自500多所机构和1000多名学者,难度极高。
  • 历史分数:此前,没有AI模型能超过10分;近期最高分仅为26.9分,由Kimi研究和Gemini深度研究共同达成。HLE以其高难度著称,被视为AI能力的“终极测试”。

系统核心:X-Master与X-Masters

该团队提出了X-Master工具和X-Masters多代理工作流系统,这一解决方案已在技术上公开,推动了AI领域的合作与发展。

  • X-Master核心哲学:模拟人类研究员解决问题的动态过程,能在内部推理和外部工具(如NumPy和SciPy)之间无缝切换。当遇到无法解决的难题时,X-Master通过编写代码行动计划、执行工具任务并整合结果到知识系统,形成一个高效的反馈循环,持续优化推理过程。
  • X-Masters工作流设计:采用分布式-堆叠代理架构,提升推理的广度和深度:
    • 分布阶段:多个求解器并行工作,生成不同解决方案。
    • 批判代理:评估和改进方案。
    • 重写代理:综合所有输出为更优解决方案。
    • 选择代理:最终选择最佳响应。

表现与优势

在本次测试中,X-Masters在生物学和医学类别表现尤为突出,超越了现有代理系统,展示了其在解决复杂问题(如科学推理)上的强大能力。

深度分析:数字进步的意义

从历史最高分26.9分到本次32.1分的提升(增长约19.3%),不仅首次突破30分门槛,还凸显了AI在模拟人类理性推理方面的显著进步。这一飞跃表明:

  • 技术突破:X-Masters的分布式工作流机制有效扩展了AI的决策广度和深度,尤其在专业领域(如生物医学)显示出应用潜力。
  • 行业影响:分数从低于10分到突破30分,仅用了不到一年时间,反映出AI研发的加速趋势。这一进步可能推动AI在教育和科研等领域的实际应用,但需警惕过度依赖AI带来的伦理风险。

火龙果频道