核心发现:我们可能把 AI 带偏了
卡内基梅隆大学和斯坦福大学最近搞了个测试,结果挺扎心:现在的 AI 智能体,好像除了写代码什么都不会。
有个挺让人无语的数据:美国 92% 的工作跟编程没啥关系,可目前的 AI 测试,几乎全在跟程序员过不去。
数据深度分析:评估体系与现实脱节
研究人员把 43 个主流的 AI 测试标准扒拉了一遍,总共 72,000 项任务,然后拿去跟美国政府的职业数据库(O*NET)里的 1,016 个真实岗位一对比,发现这俩完全是“两个世界”。
1. 数字行业存在严重的“基准盲区”
那些数字化程度特别高的行业,在现实里明明是大头,但在 AI 的测试库里却是个“隐形人”:
- 管理类:数字化水平高达 88%,可现有的 AI 测试里,能找到的相关任务只有 1.4%。
- 法律类:数字化水平为 70%,但在 AI 测试里的占比更是低得可怜,只有 0.3%。
说白了,AI 根本不知道律师和 HR 该干啥。
2. 技能错配严重
现在的 AI 评估,主要盯着“查资料”和“敲键盘”这两项技能,这两样加起来,连美国 5% 的工作都覆盖不到。
最要命的是,实际工作中最重要的“跟人打交道”(人际互动)这一类,在现有的 AI 测试里几乎被直接扔进垃圾桶了。
3. 复杂度增加导致“能力断崖”
还有个挺有意思的现象:任务越复杂,AI 就越怂。
- 软件开发领域:哪怕是 AI 最擅长的写代码,只要步骤稍微多一点,或者逻辑稍微绕一点,成功率就像坐过山车一样直接掉下来。
专家建议与未来方向
针对上面这些问题,研究人员也提了点建议,核心就两点:
- 聚焦高价值领域:别再死磕编程了,评估重心得往高价值、高数字化的领域挪挪,比如管理、法律、建筑和工程。
- 关注执行过程:别光看最后结果对不对了,还得看看 AI 干活的过程顺不顺。毕竟现实里,目标往往模棱两可,验证周期也长,光看结果解决不了实际问题。
市场数据佐证
知名 AI 公司 Anthropic(代表作 Claude)最近的内部数据也印证了这一点:
- 就他们自家的 API 调用量来看,近 50% 的流量还是集中在软件开发领域。
深度观点
说实话,看到这数据我心里也挺犯嘀咕。
专家警告说,如果 AI 的发展还这么盲目地追着那些容易自动评分的编程任务跑,它可能会彻底错过在更广泛的经济领域展示价值的机会。
这让我觉得挺可惜的。AI 应该去解决那些真实世界里乱七八糟的非结构化问题,而不是在写代码的赛道上卷得头破血流。
行业里的人得醒醒了,别总抱着“编程执念”不放,该转弯就转弯。
