AI在“终极人类考试”中表现不佳,引发对其实力的重新评估
根据《自然》杂志的报道,一项名为“终极人类考试”(HLE)的最新测试结果,促使人们重新评估人工智能的真实能力。在此次测试中,GPT-4o在满分100分中仅获得2.7分,表现最佳的AI模型也仅得到8分。
测试背景:为何需要新的评估标准?
传统的AI基准测试越来越难以反映真实能力,主要原因有二:
- 基准饱和:AI系统已“记住”了大量常见测试题,导致高分与实际理解能力脱钩。
- 答案作弊:许多测试答案可直接从网上检索,AI看似答对,实则依赖检索与记忆,而非真正的推理能力。
为解决上述问题,HLE的设计者汇聚了来自50个国家的近千名专家,确保每道题都需要深厚的专业知识,显著提升了难度。
HLE测试的核心特点
- 题目范围:涵盖数学、物理、化学等多个领域。
- 题目性质:需要深度逻辑推理(如数学题)或涉及复杂反应机制(如化学题),无法通过简单检索获得答案。
- 审核流程:经过严格审查,确保题目对AI具有足够挑战性。
主要AI模型测试结果
| 模型 | 得分/准确率 |
|---|---|
| GPT-4o | 2.7分 |
| Claude 3.5 Sonnet | 4.1% |
| Gemini 1.5 Pro | 4.6% |
| o1(表现最佳) | 8分 |
数据清晰地表明,即使是新一代AI,在面对需要深厚专业知识的真正难题时,仍然表现挣扎。
结论与启示
HLE测试结果揭示了AI真实能力与传统基准测试高分之间的尖锐对比。这促使我们重新思考:AI是否真的如我们想象的那样智能,还是仅仅是一种成功的幻觉?
发布日期:2026年2月3日
来源:AIbase Daily(基于《自然》杂志报告)
