规模定律，还是工程幻觉？

前 OpenAI 安全主管王利在个人博客上放出了一篇写了三年的长文，直接动摇了大模型行业的基石——“规模定律”。

简单来说，过去大家信什么？信“参数越多越好”。

2020 年，OpenAI 的研究员 Jared Kaplan 搞了个模型，发现训练损失随着参数量、数据量和算力的增加而下降。他的结论很诱人：只要疯狂堆参数，性能就能提升。那时候的 GPT-3 就是照着这个思路造的，1750 亿参数，数据量才 3000 亿条。

但这套逻辑在两年后就被打脸了。DeepMind 团队做了个对比实验：一边是 Gopher（280 亿参数），一边是 Chinchilla（70 亿参数），算力预算都一样。结果 Chinchilla 虽然参数只有对方的四分之一，但训练数据量是它的四倍。性能上，Chinchilla 完胜。

这意味着行业共识要变了：参数和数据得按比例走，大概 1:20 的比例最香。你看后来的 Llama、DeepSeek，参数没 GPT-3 那么多，但表现更好，就是这个道理。

可王利认为，大家可能从一开始就搞错了。

她仔细复盘了 Kaplan 的论文，发现两个致命问题：

外推太离谱：Kaplan 当时最大的模型才 15 亿参数。拿这么小的样本去外推万亿参数级别的规律，这靠谱吗？就像用一只麻雀的体重去预测蓝鲸能长多大，纯属瞎猜。
漏掉了关键项：统计时把“嵌入层”（Embedding Layer）的参数给剔除了。对于小模型来说，这部分参数其实挺重要的，这么一除，数据就偏了。

更扎心的是，2024 年 Epoch AI 团队把 Chinchilla 的拟合代码逐行跑了一遍，直接挖出了两个 Bug：

修好这两个 Bug 重新跑数据后，结论居然还是那个结论：参数与数据按比例增长才是正解。看来之前的实验虽然代码有 bug，但直觉是对的。

但问题来了：数据真的够用吗？

前面讨论都默认“数据是无限且干净的”，这显然是个伪命题。

所以，王利最后的判词挺让人清醒的：

“规模定律”根本不是物理定律；它们只是对工程细节极度敏感的观察指南。

这句话翻译过来就是：别迷信那个固定的比例公式了。如果你微调一下拟合准确率，或者控制一下噪声水平，预测结果可能天差地别。行业在定算力、买数据的时候，得结合具体的工程实现和数据质量来动态调整，盲目堆参数只会是浪费钱。

读完王利的分析，我最大的感受是：大模型行业之前可能都在做“规模幻觉”。我们以为只要参数够大就能解决一切问题，却忽略了数据质量和工程细节才是真家伙。等到 2026 年数据墙撞上，如果还是抱着旧地图找新大陆，麻烦才刚开始。

近期新闻