Google AI 摘要:90% 准确率背后的谎言陷阱
最近看到《纽约时报》报的那组数据,说实话,我心里挺不是滋味的。
Google 说他们的 AI Overviews(AI 摘要)整体准确率能达到 90%。听着挺不错,对吧?毕竟人家每年要处理 5 万亿次搜索,在这种海量数据下还能保持九成准,确实不容易。
但如果你算笔账,会发现这 90% 背后藏着什么:
- 平均每小时,大概有 5700 万个错误答案;
- 平均每分钟,差不多 100 万条假信息被推送到用户面前。
每小时 5700 万条假信息? 哪怕你只用几分钟刷个朋友圈,或者看个短视频,这数字里可能就已经混进了几条。这哪里是“辅助工具”,这简直是个“批量造假机”。
越“聪明”,越胡编
更让我担心的是另一份来自初创公司 Oumi 的独立测试。他们把 Google 的搜索结果扔进 SimpleQA 基准测了 4000 多个,结果挺扎心:
| 模型版本 | 评估时间 | 准确率 | 胡说八道的比例 |
|---|---|---|---|
| Gemini 2 | 去年 10 月 | 85% | 37% |
| Gemini 3 | 今年 2 月 | 91% | 56% |
看到没?虽然总体的“准确率”数字从 85% 涨到了 91%,但胡说八道、跟原始信源对不上的比例,直接从 37% 飙到了 56%。
这就很有意思了。这说明随着模型越来越“聪明”,它不再满足于随便找个答案糊弄过去,而是开始拼命编故事、凑逻辑,试图把假话包装成一本正经的真理。用户读起来觉得挺顺理成章,回头一查来源,全是编的。
三个让人火大的问题
我仔细琢磨了一下,这 AI 摘要目前至少有三个大毛病:
-
评测本身就不靠谱
Oumi 的测试主要靠别的 AI 工具来做,这本身就带了“偏见”。而且 Google 自己都说,同一个搜索词在不同时间可能蹦出不同的摘要。这玩意儿本来就不稳定,拿这种飘忽不定的数据去证明“准确”,我觉得有点站不住脚。 -
一张“投毒”就能翻车
有个记者做过个实验,发篇虚构的博客,结果第二天 Google 的 AI 摘要里就出现了相关内容。这说明啥?说明这功能对虚假信息毫无抵抗力,稍微有点风吹草动,它立马就信以为真。 -
自己打自己的脸
最可笑的是用户 Stephen Pavalescu 搜“摔跤手 Hulk Hogan 去世”这个假新闻时。AI 摘要一本正经地写:“没有可信报告称 Hogan 去世”。可你往下拉,列表里的文章标题赫然写着“Hulk Hogan 去世之谜加深”。这就尴尬了。上面说没死,下面说死得谜之深。这种直接冲突,谁看了不觉得这 AI 脑子有坑?用户对它的信任,大概也就是建立在沙滩上了。
Google 怎么说?
面对这些质疑,Google 的回应挺典型的:你们 Oumi 的测试方法不对,没反映真实用户的行为。
我就想问,你们怎么证明你们的“真实用户行为”不是另一种形式的“幻觉”?
写在最后
所以,别被那个"90% 准确率”给忽悠了。
Google 的 AI Overviews 看着挺美,实际上是个“易碎的玻璃杯”。它特别容易受到虚假信息的影响,而且随着模型一代代升级,它“一本正经地胡说八道”的能力反而越来越强。
如果你依赖这些摘要来做决定、写文章,甚至只是单纯获取信息,恐怕得先打个大问号。毕竟,当连 AI 都开始大规模制造“看起来合理的谎言”时,我们离真相还有多远?这真不是个让人轻松的问题。
