AI在“终极人类考试”中表现不佳，引发对其实力的重新评估

根据《自然》杂志的报道，一项名为“终极人类考试”（HLE）的最新测试结果，促使人们重新评估人工智能的真实能力。在此次测试中，GPT-4o在满分100分中仅获得2.7分，表现最佳的AI模型也仅得到8分。

测试背景：为何需要新的评估标准？

传统的AI基准测试越来越难以反映真实能力，主要原因有二：

为解决上述问题，HLE的设计者汇聚了来自50个国家的近千名专家，确保每道题都需要深厚的专业知识，显著提升了难度。

数据清晰地表明，即使是新一代AI，在面对需要深厚专业知识的真正难题时，仍然表现挣扎。

HLE测试结果揭示了AI真实能力与传统基准测试高分之间的尖锐对比。这促使我们重新思考：AI是否真的如我们想象的那样智能，还是仅仅是一种成功的幻觉？

发布日期：2026年2月3日
来源：AIbase Daily（基于《自然》杂志报告）