AI-NEWS · 2026年 4月 21日

月之暗面与清华:大模型推理的新解法

月之暗面与清华:大模型推理的新解法

最近,Moonshot AI(月之暗面)和清华大学搞了个大动作,联手推出了一套叫 PrfaaS(“预填充即服务”)的新架构。简单说,就是试图把大模型推理时的算力瓶颈给捅破。

说实话,读这篇技术报告的时候,我心里挺有感触的。以前我们总觉得,搞大模型就得堆硬件,显卡越多越好,服务器得越贵越好。但现在看来,这可能就是个死胡同。

1. 咱们以前是怎么“坑”自己的

大模型推理其实分两步走:

  1. 预填充阶段 (Prefill):你得先把用户发来的那一大段提示词算一遍,把结果存进内存里(这就是 KVCache)。这步特别吃算力,显卡得全速跑。
  2. 解码阶段 (Decode):接下来一个字一个字往外蹦。这步不怎么吃算力,但特别吃内存带宽,得不停地从显存里往外取数据。

问题出在哪?
以前的架构把这两步死死地绑在一起,逼着同一个服务器既要当“大力士”(算预填充),又要当“快递员”(跑解码)。这就好比让一个人一边举着重物跑马拉松,一边还得时刻盯着旁边的人递水。结果就是:要么显卡闲着等数据,要么内存带宽堵得动不了。服务一过载,用户就得等。

2. PrfaaS 干了件什么“离经叛道”的事

这套新架构的狠就狠在两个字:解耦

它不再迷信“单点全能”,而是把任务拆开了,分头干:

  • 算力的活,找算力强的去:预填充那步,直接甩给专门的高算力集群去干,显卡满负荷。
  • 带宽的活,找本地干的:解码那步,留在这个数据中心本地跑,不用跨网传输,响应快。
  • 中间用网线连起来:算好的 KVCache 通过以太网传过去。

最妙的是它的调度机制。系统能实时盯着流量变化,动态调整资源分配。哪怕你的请求特别长,它也能算出最优路径,保证传输不卡顿。

3. 数据说话,效果确实不一样

实测结果出来,这玩意儿有点东西:

  • 吞吐量涨了 54%:同样的机器,能多接 54% 的活儿。
  • 首字延迟变低了:不用等那么久就能看到第一个字了,体验感立竿见影。
  • 资源利用率拉满了:以前那种“木桶效应”被打破了,谁缺资源谁去抢,不再是一窝蜂挤在一个节点上。

4. 这事儿意味着什么?

我觉得这不仅仅是技术上的小修小补,更像是给行业换了个赛道:

  • 算力网络真的要来了:以前大家拼命买服务器堆机房,现在思路变了——计算和网络得协同。你的算力可能在杭州,你的数据可能在成都,通过网络把这两样东西“缝”起来。
  • 落地没那么难了:大模型以前推不动,主要是因为硬件资源不够用。现在把算力分散到各地,是不是就能让模型跑得更大了?
  • 思维得转个弯:以前我们总想着怎么让一个服务器更均衡,现在得学会怎么让一个“区域”更均衡。这种全局调度的想法,可能会彻底改变未来的算力分配逻辑。

不过,我也得说句实在话,这种跨区域传输对网络延迟要求极高。如果网络质量不稳定,再好的架构也白搭。所以,这不仅是算法的突破,更是对我们基础设施的一次大考。


注:文中涉及的企业及产品保留英文原名,方便对照:

  • Moonshot AI:月之暗面
  • Tsinghua University:清华大学
  • KVCache:键值缓存

火龙果频道