AI-NEWS · 2026年 2月 4日

GPT-4o考试仅2.7分

AI在“终极人类考试”中表现不佳,引发对其实力的重新评估

根据《自然》杂志的报道,一项名为“终极人类考试”(HLE)的最新测试结果,促使人们重新评估人工智能的真实能力。在此次测试中,GPT-4o在满分100分中仅获得2.7分,表现最佳的AI模型也仅得到8分。

测试背景:为何需要新的评估标准?

传统的AI基准测试越来越难以反映真实能力,主要原因有二:

  1. 基准饱和:AI系统已“记住”了大量常见测试题,导致高分与实际理解能力脱钩。
  2. 答案作弊:许多测试答案可直接从网上检索,AI看似答对,实则依赖检索与记忆,而非真正的推理能力。

为解决上述问题,HLE的设计者汇聚了来自50个国家的近千名专家,确保每道题都需要深厚的专业知识,显著提升了难度。

HLE测试的核心特点

  • 题目范围:涵盖数学、物理、化学等多个领域。
  • 题目性质:需要深度逻辑推理(如数学题)或涉及复杂反应机制(如化学题),无法通过简单检索获得答案。
  • 审核流程:经过严格审查,确保题目对AI具有足够挑战性。

主要AI模型测试结果

模型 得分/准确率
GPT-4o 2.7分
Claude 3.5 Sonnet 4.1%
Gemini 1.5 Pro 4.6%
o1(表现最佳) 8分

数据清晰地表明,即使是新一代AI,在面对需要深厚专业知识的真正难题时,仍然表现挣扎。

结论与启示

HLE测试结果揭示了AI真实能力与传统基准测试高分之间的尖锐对比。这促使我们重新思考:AI是否真的如我们想象的那样智能,还是仅仅是一种成功的幻觉?

发布日期:2026年2月3日
来源:AIbase Daily(基于《自然》杂志报告)

火龙果频道