AI-NEWS · 2026年 3月 27日

Google 新招:显存省 6 倍,速度快 8 倍

Google 搞了个新东西,叫 TurboQuant。 就在 2026 年 3 月底,他们想解决大模型最头疼的“吃内存”问题。

简单来说,这玩意儿有两个狠活:

  1. 省地儿:把 KV Cache(就是模型记东西的地方)压缩了,以前占 6 份,现在只要 1 份。
  2. 跑得快:虽然压缩了,但推理速度反而翻到了 8 倍

这挺有意思的。通常咱们觉得,把模型压缩小,速度肯定得慢,精度也得掉。但 TurboQuant 没走这条路。

它是咋做到的?

核心就一点:向量量化
这技术里套了两层:

  • PolarQuant:一种比较新的量化算法。
  • QJL:专门用来优化这个过程的策略。

实测到底行不行?

Google 拿几个火的大模型(比如 Gemma、Mistral)测了一把,结果有点“离谱”:

  • 不用重训:直接把技术贴上去就能用,不用费劲去微调。
  • 压得死死的:KV Cache 能压到 3-bit,这精度够狠的。
  • 没丢脑子:他们在“大海捞针”这种长文本测试里试了,结果精度一点没掉。

硬件上有多猛?

如果是在 H100 这种高端显卡上跑,把模型量化到 4-bit,速度直接是原版 8 倍

说句实在话

说实话,看到“显存省 6 倍、速度快 8 倍”这种数据,我第一反应是“这有点太完美了”。

在传统 AI 圈子里,省显存和快速度通常是死对头。想省显存就得牺牲速度,想快就得吃内存。Google 这一招,居然把这两样都拉满了,确实让人有点想问:是不是测试环境太理想化了?

不过,它确实解决了个大问题:不用改模型就能用。以前换种模型就得重新训练,成本老高;现在直接贴上去就行。而且,如果你手里有 H100,这套方案确实能让机器利用率拉满,不用堆那么多卡也能跑大模型。

至于能不能马上落地?还得看其他厂商会不会跟进,毕竟把精度压到 3-bit 或 4-bit,对某些对精度要求极高的场景(比如医疗、法律),可能还得打个问号。但作为降低大模型门槛的一个方向,这招确实够“野”。

火龙果频道