AI-NEWS · 2026年 6月 5日

Google Gemma 4 12B:去编码器的尝试

Google 发了个新模型,结果有点一言难尽

6 月 3 日,Google 把 Gemma 4 12B 放出来了。说是统一多模态模型,但仔细一看,架构上动的大手术是把“编码器”直接砍了。这玩意儿在传统多模态模型里可是个标配,现在直接没了,难怪大家炸锅。

以前是怎么搞的?现在又怎么搞的?

对比维度 传统多模态架构 Gemma 4 新架构 (Encoder-Free)
处理流程 图像和声音得先扔进专门的编码器,转成跟文本 Token 一样维度的东西。 视觉输入直接进个轻量级嵌入层,音频信号直接投影到文本空间。省去了中间商。
计算步骤 步骤多,转换麻烦。 只要一次矩阵乘法,加个位置嵌入和归一化就完事。
模型体积 因为多了个编码器,体积大,算得累。 架构直接瘦身,整体很轻。
部署门槛 通常得租云算力,烧钱。 完美适配你的电脑,不用联网也能跑。

说好的“完美”体验,现实是这样吗?

1. 本地跑得动?

官方宣传说,得益于这个新架构,120 亿参数的模型被“完美压缩”到了消费级硬件能承受的范围内:

  • 硬件要求:只要 16GB VRAM 或者统一内存。
  • 适用设备:高端笔记本随便跑。
  • 价值:不用给 Google 交租,本地离线就能处理复杂的视听任务。

说真的,看到这个“完美适配”的时候我有点怀疑。120 亿参数在本地跑,哪怕只靠 16GB 显存,发热和风扇声可能也是大问题,但这确实是个方向。

2. 推理能力还在线?

  • 多步推理与 Agent:官方吹牛说,它的多步推理和智能体(Agent)能力,已经快追上 Google 那个更大的 26B MoE 模型了。
  • 加速技术:集成了 多 Token 预测(MTP),一次能猜好几个词,边缘设备上的响应速度确实能快不少。

这里有个小细节:26B 是 MoE(混合专家)模型,结构本来就复杂。拿一个去掉了编码器的 12B 去跟它比“能力”,更多是比“性价比”,而不是比上限。

3. 生态给不给力?

协议很友好,Apache 2.0,权重直接公开。目前看来,主流工具链都接上了:

  • 推理框架:Ollama、LM Studio、MLX、SGLang、vLLM 都能用。
  • 企业部署:Google Cloud 的工具也能撑场面。
  • 边缘部署:Google AI Edge Gallery 那边出了包。

这到底意味着什么?(别只抄结论)

用户数据看着挺唬人

Google Gemma 系列累计下载量超过 1.5 亿次。看着是个大数字,但这不代表真的有多少人用它干活。不过,Gemma 4 这个新架构确实能勾起开发者的兴趣,毕竟谁不想在自己电脑上跑个大模型?

架构上的“去编码器”真的有那么神吗?

  1. 确实打破了多模态的“臃肿”魔咒:以前多模态模型就是个大胖子,编码器占了大头,跑不动。Gemma 4 这一刀下去,轻量化确实成了。这证明了“小而美”的多模态模型是有可能做出来的。
  2. 边缘计算终于有点盼头了:16GB 内存就能跑多模态大模型?如果真能做到,那手机、PC、IoT 设备确实能原生处理看视频、听声音的任务了,不用时刻连着网。但这得看实际跑起来会不会卡顿,毕竟物理定律在那摆着。
  3. 小模型想装大模型的身段:120 亿参数,Agent 能力却跟 260 亿模型掰手腕。这说明架构优化对性能提升确实有用,也给了“小参数、大能力”这个说法点底气。

最后说两句

Google 这次把 Gemma 4 12B 发出来,表面看是模型参数的升级,实际上是想在架构上搞次革命。想通过砍掉编码器,让高性能多模态模型能在你的电脑里跑,顺便降低大家玩 AI 的门槛。

不过,作为观察者,我还是持保留态度。把 120 亿参数塞进 16GB 显存,还要同时处理视觉、听觉和推理,这对量化精度和算力的要求极高。如果实际体验跟宣传的“流畅”差太多,那这次“范式转移”可能只是个实验室里的漂亮话头。

总之,方向是好的,但落地还得看实锤。

火龙果频道