AI-NEWS · 2026年 5月 27日

手机跑大模型?华为平台有新招

手机也能跑大模型了,这技术有点东西

MBLab(M6 智源)和清华、OpenBMB 一起搞了个大动作:开源了一个叫 BitCPM-CANN 的产品。这东西是专门为华为昇腾(Ascend)平台写的,专门用来搞低比特大模型的训练和推理。简单说,就是让大模型变得足够“瘦”,能塞进手机里跑。

以前大家总觉得大模型只能在服务器那种高配环境下跑,现在这个成果算是给了边缘侧 AI 一个实实在在的落地方向。

为什么这次不一样?

1. 显存终于不挤了,性能直接翻 6 倍

最让我惊讶的是显存占用量。通过低比特量化技术,BitCPM-CANN 能把显存占用砍掉大约 6 倍

  • 模型规格:这次直接开源了四个版本,分别是 0.5B、1B、3B 和 8B
  • 性能对比:别以为压缩了精度,效果就差了。跟同尺寸的全精度模型比,它的表现居然还很好。
  • 这意味着什么? 以前那个 8B 参数 的大模型,得用那种昂贵的服务器才能跑起来。现在好了,主流旗舰手机也能流畅运行。这对手机端 AI 的普及来说,绝对是个转折点。

2. 压缩了,脑子还没变傻

很多做量化的人最怕什么?怕模型“变傻”了。但 BitCPM-CANN 在这方面给的数据挺让人放心的。

  • 整体保留率:不管选哪个尺寸的模型,能力保留率都在 90% 到 97.2% 这个区间。
  • 具体表现
    • 主流的 1B、3B、8B 这几个尺寸,保留率稳稳在 95.7% – 97.2%
    • 就算是那个最小的 0.5B 模型,能力保留率也超过 90%

说实话,看到这个数字,我稍微有点意外。通常把模型压到这么低,效果很难保证。看来这套低比特训练方法确实有点东西,工程上也能落地。

这玩意儿是怎么跑起来的?

MBLab 这次没只丢个模型,而是搭了一整套基于华为昇腾平台的低比特训练基础。这套东西覆盖了整个工程系统,算是为以后在这个平台上做低比特训练铺了路:

  • 环境适配:原生支持华为昇腾平台,不用改太多环境就能跑。
  • 长序列支持:支持 32K 长序列处理,这对处理长文档或长视频很有用。
  • 算子融合:实现了高效的算子融合技术,算得更快。

我怎么看这件事?

这次开源挺有意思的,它其实点破了边缘侧大模型落地的两个死结,并且给出了解法:

  1. 手机跑不动大模型? 以前是因为显存不够,8B 级别的模型根本塞不下。现在通过 BitCPM-CANN 实现的 6 倍显存释放,直接把这个物理限制给突破了。可以说,“手机跑大模型”终于从 PPT 里的概念,变成了能用的现实。
  2. 轻薄了,是不是就不聪明了? 很多人担心压缩会牺牲智能。90%-97.2% 的保留率说明,低比特量化不是那种“杀鸡取卵”的妥协,而是一条可行的工程化路径。只要把架构和量化技术调好,在有限的算力下,确实能拿到接近全精度模型的体验。

当然,我也在想,这主要是在华为昇腾平台上跑出来的成绩。其他生态的开发者能不能复现?手机端的散热和功耗限制会不会在实际应用中带来新的麻烦?这些可能还得等更多实测数据出来。

总之,这是一次很具体的进展,至少让我们看到了移动端大模型落地的可能性比想象中要大。

火龙果频道