AI-NEWS · 2026年 3月 27日

谷歌 TurboQuant:长上下文推理的“作弊码”?

谷歌 TurboQuant:长上下文推理的“作弊码”?

3 月 26 日,谷歌团队扔出了一颗核弹:TurboQuant

这不仅仅是一个新算法,它直接切中了当前大模型落地最头疼的痛点——KV Cache 内存爆炸

简单来说,以前跑长文本,显存很容易爆,模型还得不断往 GPU 上塞数据。TurboQuant 把 KV Cache 的内存需求硬生生砍了 6 倍,而且在 Nvidia H100 上,注意力机制的计算速度直接 8 倍。最狠的是,它在多项长上下文测试里,精度竟然 零损耗

这听起来是不是有点太完美了?6 倍压缩、8 倍速度、精度不降,还要“零训练成本”?

为什么我们需要它?

长序列处理简直是 LLM 的噩梦。随着上下文拉长,Key 和 Value 向量占用的内存呈指数级增长。传统的量化方法虽然能压缩,但总得存点“常数”(比如缩放因子),这些常数得用全精度存,稍微有点长,压缩那点收益就被吃回去了。

谷歌这招是咋“偷”过来的?

TurboQuant 的核心在于它不需要重新训练模型,而且巧妙地把数据存法改了:

  1. PolarQuant(换个存法)
    它先把向量随机旋转一下,把笛卡尔坐标(X/Y/Z)转成极坐标(角度 + 半径)。

    • 为啥有用? 因为角度分布比较固定,不需要像传统方法那样存边界归一化的参数。省下了不少存储空间。
  2. QJL(修修补补)
    旋转压缩后肯定有误差。QJL 用 Johnson-Lindenstrauss 变换降维,然后用极小的 1-bit(就是 +1 或 -1)来量化。

    • 神来之笔:它有个特殊的无偏估计器,在算注意力分数的过程中就能实时修正误差,不需要额外内存

合下来就是:KV Cache 被压缩到了 3-bit 级别,而且内积估计还是准的,没偏差。

实测效果:真的这么神?

谷歌在开源模型(Gemma、Mistral)上跑了一圈,结果确实有点“不讲道理”:

  • 长文本任务:LongBench 测试里,它的表现要么持平,要么吊打现有的基线方法(比如 KIVI)。
  • 大海捞针:在 Needle In A Haystack 这种检索任务里,下游得分是完美的,内存压缩比还是 6 倍以上。
  • 硬件实测:Nvidia H100 上,4-bit 配置下,注意力 logits 算得飞快,速度提了 8 倍
  • 向量检索:连 GloVe 这种数据集上的召回率,都比传统的 PQ 和 RabbiQ 强。

我的直观感受
以前跑个长文档,可能需要好几张 A100 才能扛得住。现在,单张消费级 GPU 就能支持数万个 Token 的长上下文。这意味着什么?意味着企业级 AI 服务的硬件门槛被狠狠砸下去了。

还有啥需要注意的?

当然,技术突破不等于立刻普及。

  • 学术认可:论文投了 ICLR 2026,顶级会议,说明学术界是认的。
  • 落地预期:代码和细节预计会开源,然后慢慢集成进 vLLMTensorRT 这些主流框架。

说实话,看到“零损耗”和“六倍压缩”这种词,我第一反应是怀疑。毕竟,要在不牺牲精度的情况下大幅压缩,通常意味着要牺牲速度或者增加计算复杂度。但 TurboQuant 似乎避开了这个死循环——它通过改变数据的表示形式(极坐标)和计算过程(在线修正),在“存”和“算”之间找到了一个新的平衡点。

如果后续在真实应用场景中(比如复杂的长文档分析、长视频理解)能复现这个效果,那这绝对是对 AI 基础设施的一次重塑。在此之前,咱们不妨先把它当成一个极具潜力的方向,密切观察它在实际工程中的表现。

毕竟,真正的挑战从来不是实验室里的长文本,而是那些充满噪声、结构混乱的真实世界数据。


注:本文基于谷歌 3 月 26 日发布的最新技术报告整理。

火龙果频道