图灵测试“被攻破”？AI 正在完美撒谎

核心发现：76 年后，AI 终于学会了“演人”

英国计算机科学之父艾伦·图灵（Alan Turing）在 1950 年提出的那个经典测试，在整整 76 年后，似乎被彻底“攻破”了。加州大学圣地亚哥分校（UCSD）的一项研究发表在《美国国家科学院院刊》（PNAS）上，由认知科学专家 Cameron Jones 和 Ben Bergen 操刀。

结果有点扎心：在严格的三方图灵测试里，现代大语言模型不仅通过了测试，甚至在某些条件下，人类更倾向于相信 AI 是真人，而不是真的相信那个真人类是真人。

数据有点“怪”：AI 的伪装能力参差不齐

研究找了近 500 个人当“法官”（包括 UCSD 的本科生和网上的志愿者），让他们盲测不同模型。结果挺有意思：

模型/状态	被误认为人类的概率	怎么看？
GPT-4.5 (加了特定人设提示)	73%	真·顶级玩家：在精心设计的“人设剧本”下，它演得比真人还像。
LLaMa-3.1-405B (开源最强)	56%	半斤八两：表现和真人没啥区别，完全能骗过你。
GPT-4.5 (没加提示)	36%	原形毕露：要是没人给它写“人设”，它立马变回那种冷冰冰的 AI。
LLaMa-3.1 (没加提示)	38%	同上：没引导词的时候，它很难装出人来。
ELIZA (60 年代的规则机器人)	23%	老古董：这种基于规则的老式机器人，早就被一眼识破了。
GPT-4o (没针对性提示)	21%	容易穿帮：哪怕是最牛的 GPT-4o，在没提示的情况下聊久了，也会露馅。

我的观察：这数据其实挺讽刺的。AI 的“伪装”并不全靠它自己，很大程度上得看人类给它喂什么“人设提示（Prompts）”。这其实是一场“人机合谋”——你给得越像人，它演得越像。

颠覆认知：现在的图灵测试，测的不是“智商”，是“像人”

实验结果揭示了一个根本性的转变：

以前：大家觉得图灵测试是看谁算得快、谁更理性。
现在：核心变成了看谁更**“像人”，甚至包括“像人一样犯错”**。

在双盲随机对话里，法官要在 5 到 15 分钟内分辨谁是人、谁是机器。但当 AI 被灌输了合适的人设后，它能精准模仿人类的语气、直接、幽默，还有最关键的——缺陷感（Fallibility）。就是那种会犯傻、会口误、会情绪化的小毛病。

正如论文作者 Cameron Jones 说的：

“今天的图灵测试，与其说是测‘智能’，不如说是测‘像人类’的程度。这是一场关于撒谎的游戏。AI 已经被证明是极其高明的撒谎者。”

逻辑链条大概是这样：

[没加提示：知识库广博，绝对理性] 
  └──> 人类法官：这绝对是 AI！
[加了人设：模仿语气、幽默、犯错] 
  └──> 人类法官：卧槽，这是真人！

重新定义图灵测试：从“测智能”到“测人性”

共同作者 Ben Bergen 教授说，这项研究逼着科学界重新想清楚图灵测试到底是啥。

2026 年的新定义：现在的测试不再纠结机器有没有超越人类的智能，因为 AI 在速度和准确率上早就把人类甩几条街了；现在的重点在于机器是否拥有足够多的“人类特征”。

信任链正在断裂：
如果一个大模型能在 15 分钟的闲聊里成功隐藏所有机器特征，那意味着支撑我们整个互联网世界的信任体系可能就要崩了。你根本没法确定屏幕对面坐的是真人还是机器。

阴影下的繁荣：在线身份“反洗钱”式清理迫在眉睫

当欺骗变得这么便宜且高效时，现实世界的风险是指数级上升的。Ben Bergen 教授对此表达了深深的担忧：

恶意利用风险：这种能完美拟人化的 AI，很容易被犯罪分子、极端组织或者某些坏心眼的公司拿去干坏事。
具体怎么害你：
- 隐私泄露：你可能在不知情的情况下，被伪装成人类的聊天机器人哄骗，把社保号、银行卡号这种敏感信息全吐出来了。
- 舆论操控：AI 可能被用来诱导你改变投票意向，或者在评论区带节奏。
- 冲动消费：你可能以为对面是个热心的真人客服，结果不知不觉买了一堆不需要的东西。

紧急预警：别再把“能分清真假”当回事了

针对这个结果，研究团队向全社会敲响了警钟：

在未来和陌生人在线聊天时，大家必须降低那种“我能 100% 分清谁是人谁是机器人”的盲目自信。

为了不让这个在线信任生态系统彻底烂掉，得赶紧搞点实在的：

搞更严的数字身份验证（比如生物识别、动态水印）。
建立 AI 生成内容的“防伪”机制（就像给 AI 打水印）。

这不仅仅是技术升级，更像是一场社会层面的“反洗钱”行动，目的是从根上切断 AI 伪装的传播，重建我们数字世界的信任。

最后说句心里话：
看着这些数字，说实话，我有点后背发凉。以前我们总担心 AI 会“觉醒”或者“变强”，现在发现，它最大的危险可能在于它能做得太像我们了，像到让我们自己都不敢相信屏幕对面还是个人。

火龙果频道

近期新闻

AI-NEWS · 2026年 5月 23日

核心发现：76 年后，AI 终于学会了“演人”

数据有点“怪”：AI 的伪装能力参差不齐

颠覆认知：现在的图灵测试，测的不是“智商”，是“像人”

重新定义图灵测试：从“测智能”到“测人性”

阴影下的繁荣：在线身份“反洗钱”式清理迫在眉睫

紧急预警：别再把“能分清真假”当回事了

您可能还喜欢...

AI-NEWS · 2026年 5月 23日

核心发现：76 年后，AI 终于学会了“演人”

数据有点“怪”：AI 的伪装能力参差不齐

颠覆认知：现在的图灵测试，测的不是“智商”，是“像人”

重新定义图灵测试：从“测智能”到“测人性”

阴影下的繁荣：在线身份“反洗钱”式清理迫在眉睫

紧急预警：别再把“能分清真假”当回事了

您可能还喜欢...

微软模型加速蛋白模拟

火山引擎 ArkClaw：把智能体当工具用

蚁百灵发布新推理模型