手机也能跑大模型了,这技术有点东西
MBLab(M6 智源)和清华、OpenBMB 一起搞了个大动作:开源了一个叫 BitCPM-CANN 的产品。这东西是专门为华为昇腾(Ascend)平台写的,专门用来搞低比特大模型的训练和推理。简单说,就是让大模型变得足够“瘦”,能塞进手机里跑。
以前大家总觉得大模型只能在服务器那种高配环境下跑,现在这个成果算是给了边缘侧 AI 一个实实在在的落地方向。
为什么这次不一样?
1. 显存终于不挤了,性能直接翻 6 倍
最让我惊讶的是显存占用量。通过低比特量化技术,BitCPM-CANN 能把显存占用砍掉大约 6 倍。
- 模型规格:这次直接开源了四个版本,分别是 0.5B、1B、3B 和 8B。
- 性能对比:别以为压缩了精度,效果就差了。跟同尺寸的全精度模型比,它的表现居然还很好。
- 这意味着什么? 以前那个 8B 参数 的大模型,得用那种昂贵的服务器才能跑起来。现在好了,主流旗舰手机也能流畅运行。这对手机端 AI 的普及来说,绝对是个转折点。
2. 压缩了,脑子还没变傻
很多做量化的人最怕什么?怕模型“变傻”了。但 BitCPM-CANN 在这方面给的数据挺让人放心的。
- 整体保留率:不管选哪个尺寸的模型,能力保留率都在 90% 到 97.2% 这个区间。
- 具体表现:
- 主流的 1B、3B、8B 这几个尺寸,保留率稳稳在 95.7% – 97.2%。
- 就算是那个最小的 0.5B 模型,能力保留率也超过 90%。
说实话,看到这个数字,我稍微有点意外。通常把模型压到这么低,效果很难保证。看来这套低比特训练方法确实有点东西,工程上也能落地。
这玩意儿是怎么跑起来的?
MBLab 这次没只丢个模型,而是搭了一整套基于华为昇腾平台的低比特训练基础。这套东西覆盖了整个工程系统,算是为以后在这个平台上做低比特训练铺了路:
- 环境适配:原生支持华为昇腾平台,不用改太多环境就能跑。
- 长序列支持:支持 32K 长序列处理,这对处理长文档或长视频很有用。
- 算子融合:实现了高效的算子融合技术,算得更快。
我怎么看这件事?
这次开源挺有意思的,它其实点破了边缘侧大模型落地的两个死结,并且给出了解法:
- 手机跑不动大模型? 以前是因为显存不够,8B 级别的模型根本塞不下。现在通过 BitCPM-CANN 实现的 6 倍显存释放,直接把这个物理限制给突破了。可以说,“手机跑大模型”终于从 PPT 里的概念,变成了能用的现实。
- 轻薄了,是不是就不聪明了? 很多人担心压缩会牺牲智能。90%-97.2% 的保留率说明,低比特量化不是那种“杀鸡取卵”的妥协,而是一条可行的工程化路径。只要把架构和量化技术调好,在有限的算力下,确实能拿到接近全精度模型的体验。
当然,我也在想,这主要是在华为昇腾平台上跑出来的成绩。其他生态的开发者能不能复现?手机端的散热和功耗限制会不会在实际应用中带来新的麻烦?这些可能还得等更多实测数据出来。
总之,这是一次很具体的进展,至少让我们看到了移动端大模型落地的可能性比想象中要大。
