AI-NEWS · 2026年 6月 27日

规模定律,还是工程幻觉?

前 OpenAI 安全主管王利在个人博客上放出了一篇写了三年的长文,直接动摇了大模型行业的基石——“规模定律”。

简单来说,过去大家信什么?信“参数越多越好”。

2020 年,OpenAI 的研究员 Jared Kaplan 搞了个模型,发现训练损失随着参数量、数据量和算力的增加而下降。他的结论很诱人:只要疯狂堆参数,性能就能提升。那时候的 GPT-3 就是照着这个思路造的,1750 亿参数,数据量才 3000 亿条。

但这套逻辑在两年后就被打脸了。DeepMind 团队做了个对比实验:一边是 Gopher(280 亿参数),一边是 Chinchilla(70 亿参数),算力预算都一样。结果 Chinchilla 虽然参数只有对方的四分之一,但训练数据量是它的四倍。性能上,Chinchilla 完胜。

这意味着行业共识要变了:参数和数据得按比例走,大概 1:20 的比例最香。你看后来的 Llama、DeepSeek,参数没 GPT-3 那么多,但表现更好,就是这个道理。

可王利认为,大家可能从一开始就搞错了。

她仔细复盘了 Kaplan 的论文,发现两个致命问题:

  1. 外推太离谱:Kaplan 当时最大的模型才 15 亿参数。拿这么小的样本去外推万亿参数级别的规律,这靠谱吗?就像用一只麻雀的体重去预测蓝鲸能长多大,纯属瞎猜。
  2. 漏掉了关键项:统计时把“嵌入层”(Embedding Layer)的参数给剔除了。对于小模型来说,这部分参数其实挺重要的,这么一除,数据就偏了。

更扎心的是,2024 年 Epoch AI 团队把 Chinchilla 的拟合代码逐行跑了一遍,直接挖出了两个 Bug:

  • 算损失函数(Loss)的时候,人家求和变成了平均,这导致优化器根本不知道模型到底收敛没。
  • 核心幂律指数只保留了两位小数,人为造了个假精确度。

修好这两个 Bug 重新跑数据后,结论居然还是那个结论:参数与数据按比例增长才是正解。看来之前的实验虽然代码有 bug,但直觉是对的。

但问题来了:数据真的够用吗?

前面讨论都默认“数据是无限且干净的”,这显然是个伪命题。

  • 数据快没完了:高质量文本数据预计 2026 到 2028 年就见底了。
  • 重复没用:研究表明,重复训练数据的价值是指数级衰减的。
  • 边际效应越来越差:每多训练一轮,提升的幅度小得可怜。

所以,王利最后的判词挺让人清醒的:

“规模定律”根本不是物理定律;它们只是对工程细节极度敏感的观察指南。

这句话翻译过来就是:别迷信那个固定的比例公式了。如果你微调一下拟合准确率,或者控制一下噪声水平,预测结果可能天差地别。行业在定算力、买数据的时候,得结合具体的工程实现和数据质量来动态调整,盲目堆参数只会是浪费钱。

读完王利的分析,我最大的感受是:大模型行业之前可能都在做“规模幻觉”。我们以为只要参数够大就能解决一切问题,却忽略了数据质量和工程细节才是真家伙。等到 2026 年数据墙撞上,如果还是抱着旧地图找新大陆,麻烦才刚开始。

火龙果频道