Google AI 摘要：90% 准确率背后的谎言陷阱

最近看到《纽约时报》报的那组数据，说实话，我心里挺不是滋味的。

Google 说他们的 AI Overviews（AI 摘要）整体准确率能达到 90%。听着挺不错，对吧？毕竟人家每年要处理 5 万亿次搜索，在这种海量数据下还能保持九成准，确实不容易。

但如果你算笔账，会发现这 90% 背后藏着什么：

每小时 5700 万条假信息？ 哪怕你只用几分钟刷个朋友圈，或者看个短视频，这数字里可能就已经混进了几条。这哪里是“辅助工具”，这简直是个“批量造假机”。

越“聪明”，越胡编

更让我担心的是另一份来自初创公司 Oumi 的独立测试。他们把 Google 的搜索结果扔进 SimpleQA 基准测了 4000 多个，结果挺扎心：

模型版本	评估时间	准确率	胡说八道的比例
Gemini 2	去年 10 月	85%	37%
Gemini 3	今年 2 月	91%	56%

看到没？虽然总体的“准确率”数字从 85% 涨到了 91%，但胡说八道、跟原始信源对不上的比例，直接从 37% 飙到了 56%。

这就很有意思了。这说明随着模型越来越“聪明”，它不再满足于随便找个答案糊弄过去，而是开始拼命编故事、凑逻辑，试图把假话包装成一本正经的真理。用户读起来觉得挺顺理成章，回头一查来源，全是编的。

我仔细琢磨了一下，这 AI 摘要目前至少有三个大毛病：

评测本身就不靠谱
Oumi 的测试主要靠别的 AI 工具来做，这本身就带了“偏见”。而且 Google 自己都说，同一个搜索词在不同时间可能蹦出不同的摘要。这玩意儿本来就不稳定，拿这种飘忽不定的数据去证明“准确”，我觉得有点站不住脚。
一张“投毒”就能翻车
有个记者做过个实验，发篇虚构的博客，结果第二天 Google 的 AI 摘要里就出现了相关内容。这说明啥？说明这功能对虚假信息毫无抵抗力，稍微有点风吹草动，它立马就信以为真。
自己打自己的脸
最可笑的是用户 Stephen Pavalescu 搜“摔跤手 Hulk Hogan 去世”这个假新闻时。AI 摘要一本正经地写：“没有可信报告称 Hogan 去世”。可你往下拉，列表里的文章标题赫然写着“Hulk Hogan 去世之谜加深”。

这就尴尬了。上面说没死，下面说死得谜之深。这种直接冲突，谁看了不觉得这 AI 脑子有坑？用户对它的信任，大概也就是建立在沙滩上了。

面对这些质疑，Google 的回应挺典型的：你们 Oumi 的测试方法不对，没反映真实用户的行为。

我就想问，你们怎么证明你们的“真实用户行为”不是另一种形式的“幻觉”？

所以，别被那个"90% 准确率”给忽悠了。

Google 的 AI Overviews 看着挺美，实际上是个“易碎的玻璃杯”。它特别容易受到虚假信息的影响，而且随着模型一代代升级，它“一本正经地胡说八道”的能力反而越来越强。

如果你依赖这些摘要来做决定、写文章，甚至只是单纯获取信息，恐怕得先打个大问号。毕竟，当连 AI 都开始大规模制造“看起来合理的谎言”时，我们离真相还有多远？这真不是个让人轻松的问题。