AI-NEWS · 2026年 3月 21日

Mistral Small 4:小参数,大震撼?

欧洲 AI 圈最近有点热闹,Mistral AI 又搞了个大动作:3 月 16 日,他们把 Mistral Small 4 给放出来了。

说实话,这名字有点“反直觉”。"Small"听起来像是缩水版,但如果你真的跑过它,可能会觉得这名字是某种“凡尔赛”——毕竟,它被宣传为第一款真正“全能”的模型。

以前开发者做项目,经常得像个采购经理一样纠结:代码任务用 Code Llama,长文档用 Llama 3,画图用 FLUX……换模型太麻烦,上下文还得割裂。Mistral Small 4 这次算是把选择题变成了“全选”。

它到底强在哪?

简单来说,就是试图在一个模型里塞进所有需求:

  • 脑子转得快:逻辑推理能力比上一代强了不少。
  • 眼明耳聪:不仅能看文本,还能看懂图片。
  • 手活利索:写代码和理解代码都很溜。

这玩意儿配置咋样?

看参数表可能会让你有点懵:

参数项 具体数值/描述
总参数量 119B (1190 亿)
激活参数量 6B (60 亿)
上下文窗口 256k (能吞下整份技术文档)
开源协议 Apache 2.0 (随便用,只要别商用太离谱)
运行模式 想要快就选“快速响应”,想要准就切“深度推理”

数据对比确实有点吓人:

  • 速度快了:延迟优化模式下,比前代快 40%。
  • 吞吐量猛增:吞吐量优化模式下,每秒处理请求数是 Small 3 的 3 倍。
  • 脸面工程:在三项核心测试里,它的分数居然不低于 OpenAI 那个 120B 的 GPT-OSS 模型。

硬件方面,Mistral AI 也给了明确的建议:

  • 最低配:4 张 HGX H100,或者 1 张 DGX B200。
  • 想爽一把:4 张 HGX H200,或者 2 张 DGX B200。

最后,说点实在的,为什么我们要关注它?

抛开那些漂亮的营销词汇,我觉得有几个点确实戳中痛点:

  1. 省钱的 MoE 架构:总参数量有 119B,但实际跑的时候只激活 6B。这意味着你既有大模型的智商,又不用付大模型的“房租”(推理成本),延迟也低。
  2. 不再搞“模型全家桶”:以前还得为了不同任务部署好几个模型,现在一个吃到底。对于中小团队来说,运维成本直接省下一大笔。
  3. 长文本 + 免费协议:256k 的上下文窗口能处理长文档,加上 Apache 2.0 这种宽松协议,哪怕你是个小团队,也能拿来玩,不用像以前那样被“闭源”卡脖子。
  4. 跟闭源模型硬刚:关键指标上直接对标甚至超越 OpenAI 的 120B 模型。这证明了一个道理:开源模型只要架构调教得好,完全有机会跟那些“贵族”掰掰手腕。

不过,我也得泼盆冷水。"Small 4"这个名字本身就有隐患。 119B 的参数量放在今天,绝对算不上"Small"。如果是在 2023 年或许还能这么叫,但现在,这名字可能会让人误以为它是轻量级玩具。

而且,虽然参数激活量只有 6B,但这 6B 到底是不是“精华中的精华”?有没有为了追求激活参数量而牺牲了某些特定场景的稳定性?这些在实际大规模部署时,还得看真机测试的数据。

总之,Mistral Small 4 是个挺有意思的尝试。它试图用更低的算力门槛去挑战闭源巨头的垄断,这野心值得肯定。但对于开发者来说,除了看参数表,还得看看它在你自己业务场景下,到底是不是真的“全能”,又会不会在某些边缘情况下“翻车”。

毕竟,AI 圈的变化快得像过山车,今天吹"Small",明天可能就被更大的"Ultra"给甩在身后了。

火龙果频道