AI-NEWS · 2026年 3月 10日

AI 智能体:为何它只懂写代码,不懂干活?

核心发现:我们可能把 AI 带偏了

卡内基梅隆大学和斯坦福大学最近搞了个测试,结果挺扎心:现在的 AI 智能体,好像除了写代码什么都不会。

有个挺让人无语的数据:美国 92% 的工作跟编程没啥关系,可目前的 AI 测试,几乎全在跟程序员过不去。

数据深度分析:评估体系与现实脱节

研究人员把 43 个主流的 AI 测试标准扒拉了一遍,总共 72,000 项任务,然后拿去跟美国政府的职业数据库(O*NET)里的 1,016 个真实岗位一对比,发现这俩完全是“两个世界”。

1. 数字行业存在严重的“基准盲区”

那些数字化程度特别高的行业,在现实里明明是大头,但在 AI 的测试库里却是个“隐形人”:

  • 管理类:数字化水平高达 88%,可现有的 AI 测试里,能找到的相关任务只有 1.4%
  • 法律类:数字化水平为 70%,但在 AI 测试里的占比更是低得可怜,只有 0.3%

说白了,AI 根本不知道律师和 HR 该干啥。

2. 技能错配严重

现在的 AI 评估,主要盯着“查资料”和“敲键盘”这两项技能,这两样加起来,连美国 5% 的工作都覆盖不到。

最要命的是,实际工作中最重要的“跟人打交道”(人际互动)这一类,在现有的 AI 测试里几乎被直接扔进垃圾桶了。

3. 复杂度增加导致“能力断崖”

还有个挺有意思的现象:任务越复杂,AI 就越怂。

  • 软件开发领域:哪怕是 AI 最擅长的写代码,只要步骤稍微多一点,或者逻辑稍微绕一点,成功率就像坐过山车一样直接掉下来。

专家建议与未来方向

针对上面这些问题,研究人员也提了点建议,核心就两点:

  • 聚焦高价值领域:别再死磕编程了,评估重心得往高价值、高数字化的领域挪挪,比如管理、法律、建筑和工程。
  • 关注执行过程:别光看最后结果对不对了,还得看看 AI 干活的过程顺不顺。毕竟现实里,目标往往模棱两可,验证周期也长,光看结果解决不了实际问题。

市场数据佐证

知名 AI 公司 Anthropic(代表作 Claude)最近的内部数据也印证了这一点:

  • 就他们自家的 API 调用量来看,近 50% 的流量还是集中在软件开发领域。

深度观点

说实话,看到这数据我心里也挺犯嘀咕。

专家警告说,如果 AI 的发展还这么盲目地追着那些容易自动评分的编程任务跑,它可能会彻底错过在更广泛的经济领域展示价值的机会。

这让我觉得挺可惜的。AI 应该去解决那些真实世界里乱七八糟的非结构化问题,而不是在写代码的赛道上卷得头破血流。

行业里的人得醒醒了,别总抱着“编程执念”不放,该转弯就转弯。

火龙果频道