AI 智能体：为何它只懂写代码，不懂干活？

核心发现：我们可能把 AI 带偏了

卡内基梅隆大学和斯坦福大学最近搞了个测试，结果挺扎心：现在的 AI 智能体，好像除了写代码什么都不会。

有个挺让人无语的数据：美国 92% 的工作跟编程没啥关系，可目前的 AI 测试，几乎全在跟程序员过不去。

数据深度分析：评估体系与现实脱节

研究人员把 43 个主流的 AI 测试标准扒拉了一遍，总共 72,000 项任务，然后拿去跟美国政府的职业数据库（O*NET）里的 1,016 个真实岗位一对比，发现这俩完全是“两个世界”。

1. 数字行业存在严重的“基准盲区”

那些数字化程度特别高的行业，在现实里明明是大头，但在 AI 的测试库里却是个“隐形人”：

管理类：数字化水平高达 88%，可现有的 AI 测试里，能找到的相关任务只有 1.4%。
法律类：数字化水平为 70%，但在 AI 测试里的占比更是低得可怜，只有 0.3%。

说白了，AI 根本不知道律师和 HR 该干啥。

2. 技能错配严重

现在的 AI 评估，主要盯着“查资料”和“敲键盘”这两项技能，这两样加起来，连美国 5% 的工作都覆盖不到。

最要命的是，实际工作中最重要的“跟人打交道”（人际互动）这一类，在现有的 AI 测试里几乎被直接扔进垃圾桶了。

3. 复杂度增加导致“能力断崖”

还有个挺有意思的现象：任务越复杂，AI 就越怂。

软件开发领域：哪怕是 AI 最擅长的写代码，只要步骤稍微多一点，或者逻辑稍微绕一点，成功率就像坐过山车一样直接掉下来。

专家建议与未来方向

针对上面这些问题，研究人员也提了点建议，核心就两点：

聚焦高价值领域：别再死磕编程了，评估重心得往高价值、高数字化的领域挪挪，比如管理、法律、建筑和工程。
关注执行过程：别光看最后结果对不对了，还得看看 AI 干活的过程顺不顺。毕竟现实里，目标往往模棱两可，验证周期也长，光看结果解决不了实际问题。

市场数据佐证

知名 AI 公司 Anthropic（代表作 Claude）最近的内部数据也印证了这一点：

就他们自家的 API 调用量来看，近 50% 的流量还是集中在软件开发领域。

深度观点

说实话，看到这数据我心里也挺犯嘀咕。

专家警告说，如果 AI 的发展还这么盲目地追着那些容易自动评分的编程任务跑，它可能会彻底错过在更广泛的经济领域展示价值的机会。

这让我觉得挺可惜的。AI 应该去解决那些真实世界里乱七八糟的非结构化问题，而不是在写代码的赛道上卷得头破血流。

行业里的人得醒醒了，别总抱着“编程执念”不放，该转弯就转弯。

火龙果频道

近期新闻

AI-NEWS · 2026年 3月 10日

核心发现：我们可能把 AI 带偏了

数据深度分析：评估体系与现实脱节

1. 数字行业存在严重的“基准盲区”

2. 技能错配严重

3. 复杂度增加导致“能力断崖”

专家建议与未来方向

市场数据佐证

深度观点

您可能还喜欢...

AI-NEWS · 2026年 3月 10日

核心发现：我们可能把 AI 带偏了

数据深度分析：评估体系与现实脱节

1. 数字行业存在严重的“基准盲区”

2. 技能错配严重

3. 复杂度增加导致“能力断崖”

专家建议与未来方向

市场数据佐证

深度观点

您可能还喜欢...

World Labs Founded by Fei-Fei Li Reaches Valuation of Over $1 Billion, Focused on Developing AI Models for 3D Physical Properties

小米小爱开放公测

垃圾数据削弱大模型推理