Google Gemma 4 12B：去编码器的尝试

Google 发了个新模型，结果有点一言难尽

6 月 3 日，Google 把 Gemma 4 12B 放出来了。说是统一多模态模型，但仔细一看，架构上动的大手术是把“编码器”直接砍了。这玩意儿在传统多模态模型里可是个标配，现在直接没了，难怪大家炸锅。

以前是怎么搞的？现在又怎么搞的？

对比维度	传统多模态架构	Gemma 4 新架构 (Encoder-Free)
处理流程	图像和声音得先扔进专门的编码器，转成跟文本 Token 一样维度的东西。	视觉输入直接进个轻量级嵌入层，音频信号直接投影到文本空间。省去了中间商。
计算步骤	步骤多，转换麻烦。	只要一次矩阵乘法，加个位置嵌入和归一化就完事。
模型体积	因为多了个编码器，体积大，算得累。	架构直接瘦身，整体很轻。
部署门槛	通常得租云算力，烧钱。	完美适配你的电脑，不用联网也能跑。

说好的“完美”体验，现实是这样吗？

1. 本地跑得动？

官方宣传说，得益于这个新架构，120 亿参数的模型被“完美压缩”到了消费级硬件能承受的范围内：

硬件要求：只要 16GB VRAM 或者统一内存。
适用设备：高端笔记本随便跑。
价值：不用给 Google 交租，本地离线就能处理复杂的视听任务。

说真的，看到这个“完美适配”的时候我有点怀疑。120 亿参数在本地跑，哪怕只靠 16GB 显存，发热和风扇声可能也是大问题，但这确实是个方向。

2. 推理能力还在线？

多步推理与 Agent：官方吹牛说，它的多步推理和智能体（Agent）能力，已经快追上 Google 那个更大的 26B MoE 模型了。
加速技术：集成了 多 Token 预测（MTP），一次能猜好几个词，边缘设备上的响应速度确实能快不少。

这里有个小细节：26B 是 MoE（混合专家）模型，结构本来就复杂。拿一个去掉了编码器的 12B 去跟它比“能力”，更多是比“性价比”，而不是比上限。

3. 生态给不给力？

协议很友好，Apache 2.0，权重直接公开。目前看来，主流工具链都接上了：

推理框架：Ollama、LM Studio、MLX、SGLang、vLLM 都能用。
企业部署：Google Cloud 的工具也能撑场面。
边缘部署：Google AI Edge Gallery 那边出了包。

这到底意味着什么？（别只抄结论）

用户数据看着挺唬人

Google Gemma 系列累计下载量超过 1.5 亿次。看着是个大数字，但这不代表真的有多少人用它干活。不过，Gemma 4 这个新架构确实能勾起开发者的兴趣，毕竟谁不想在自己电脑上跑个大模型？

架构上的“去编码器”真的有那么神吗？

确实打破了多模态的“臃肿”魔咒：以前多模态模型就是个大胖子，编码器占了大头，跑不动。Gemma 4 这一刀下去，轻量化确实成了。这证明了“小而美”的多模态模型是有可能做出来的。
边缘计算终于有点盼头了：16GB 内存就能跑多模态大模型？如果真能做到，那手机、PC、IoT 设备确实能原生处理看视频、听声音的任务了，不用时刻连着网。但这得看实际跑起来会不会卡顿，毕竟物理定律在那摆着。
小模型想装大模型的身段：120 亿参数，Agent 能力却跟 260 亿模型掰手腕。这说明架构优化对性能提升确实有用，也给了“小参数、大能力”这个说法点底气。

最后说两句

Google 这次把 Gemma 4 12B 发出来，表面看是模型参数的升级，实际上是想在架构上搞次革命。想通过砍掉编码器，让高性能多模态模型能在你的电脑里跑，顺便降低大家玩 AI 的门槛。

不过，作为观察者，我还是持保留态度。把 120 亿参数塞进 16GB 显存，还要同时处理视觉、听觉和推理，这对量化精度和算力的要求极高。如果实际体验跟宣传的“流畅”差太多，那这次“范式转移”可能只是个实验室里的漂亮话头。

总之，方向是好的，但落地还得看实锤。

火龙果频道

近期新闻

AI-NEWS · 2026年 6月 5日

Google 发了个新模型，结果有点一言难尽

以前是怎么搞的？现在又怎么搞的？

说好的“完美”体验，现实是这样吗？

1. 本地跑得动？

2. 推理能力还在线？

3. 生态给不给力？

这到底意味着什么？（别只抄结论）

用户数据看着挺唬人

架构上的“去编码器”真的有那么神吗？

最后说两句

您可能还喜欢...

AI-NEWS · 2026年 6月 5日

Google 发了个新模型，结果有点一言难尽

以前是怎么搞的？现在又怎么搞的？

说好的“完美”体验，现实是这样吗？

1. 本地跑得动？

2. 推理能力还在线？

3. 生态给不给力？

这到底意味着什么？（别只抄结论）

用户数据看着挺唬人

架构上的“去编码器”真的有那么神吗？

最后说两句

您可能还喜欢...

一键生成酷炫logo设计！

Mistral 发布了2个7B小模型： Codestral Mamba 7B 和 Mathstral 7B

OpenAI组建应用团队