AI-NEWS · 2026年 5月 13日

AMD vLLM-ATOM:让国产模型跑快一点

AMD 刚发了个叫 vLLM-ATOM 的插件,挺有意思。

简单来说,这东西能让跑在 AMD 显卡上的大模型(比如 DeepSeek-R1、Kimi-K2 这些)跑得更快,而且不用你改代码。

到底怎么实现的?
它分三层,挺清楚:

  1. 最上面还是用开源的 vLLM 框架,不用动,好接驳。
  2. 中间插了个 AMD 写的插件,专门调教模型。
  3. 最底下直接挂 AMD 的 Instinct 显卡,跑 Flash Attention、量化后的矩阵乘法啥的。

对用户有啥用?
最大的好处就是“省事儿”。

  • 以前想从 NVIDIA 的卡换到 AMD 的卡,得改一堆代码,风险大。
  • 现在?不用改。插件在后台自动搞定优化。
  • 特别是对于已经在用 vLLM 的企业,换硬件成本几乎为零。

支持啥?
显卡主要是 MI350、MI400、MI355X 这几款。
模型方面,Qwen3、GLM、DeepSeek 这些主流的都行,不管是混合专家模型还是视觉模型,基本都能跑。

这事儿意味着啥?
我觉得 AMD 这招挺狠的。
以前大家觉得 AMD 显卡不行,主要是没软件配合,跑不动大模型。现在通过 vLLM,AMD 算是把这块短板给补上了。
对于国产大模型来说,这算个好消息。以前想上国产芯片得等着厂家一个个适配,现在有了这个插件,切换起来顺溜多了。

当然,我也得泼盆冷水。
“零成本迁移”听着挺美,但实际落地还得看具体场景。有些模型虽然能跑,但显存占用或者延迟是不是真能达到预期,还得实测。
另外,NVIDIA 的生态太深了,CUDA 那帮人绑得死死的。AMD 虽然有个新插件,但能不能真正从 NVIDIA 手里抢过饭碗,还得看长期稳定性和实际成本。

总之,AMD 这步棋走对了,至少给了大家一个“备胎”选项,不用被一家独大卡脖子。至于最后能不能成气候,咱们还得盯着看。

火龙果频道