AI-NEWS · 2026年 3月 27日

蚂蚁发布 F2LLM-v2：不靠英语也能跑

核心动态：蚂蚁和上交大联手，把“英语中心”给掀了

3 月 26 日，蚂蚁集团 CodeFuse 团队联合上海交通大学，直接甩出了一套新的 Embedding 模型——F2LLM-v2。这东西全开源，免费给全球开发者用。最让我觉得有意思的，是它彻底打破了咱们行业里那个老毛病：太依赖英语。

性能表现：榜单上横着走，拿了 11 个第一

去 MTEB（目前最权威的那个 Embedding 评测榜单）上看数据，这模型有点“不讲武德”：

全语言通吃：它在 11 种不同语言榜单上全是第一，包括德语、法语、日语这些。
小个子打怪升级：哪怕是最小的那个轻量级版本，只要参数量一样，就能把业界那些大名鼎鼎的大模型按在地上摩擦。
活儿包全了：评测覆盖了 430 个子场景，从医疗问答到代码检索，没它不行的。

说实话，看到小模型能赢大模型，心里还是有点“这合理吗”的疑问，但数据摆在那，挺硬核。

懂啥语言？282 种自然语言 + 40 多种编程语言

这模型之所以这么“卷”，主要是训练底子铺得广：

照顾冷门语言：以前那些北欧语系、东南亚语系这种“没人用”的语言，这次被重点照顾了。
懂代码：它深谙 40 多种编程语言（比如 Python、Java、Go）。如果你要做 RAG（检索增强生成）或者写代码的助手，这东西能省不少心。
料挺纯：用的是 6000 万条清洗过的公开数据，不像有些模型把乱七八糟的网路数据一股脑塞进去。

效率玩命卷：80M 到 14B，手机也能跑

为了满足不同场景，他们搞了一整套模型矩阵：

手机不卡：80M 到 330M 的小模型，用了“剪枝”和“蒸馏”技术，在手机上流畅跑完全没压力。
有个“黑科技”：支持动态调整维度。用户想快点？切 8 维；想准点？切全维。自己权衡速度和存多少空间，挺灵活。

完全开源：别藏着掖着了

跟那些动不动就“闭源”的模型不一样，F2LLM-v2 玩的是实打实的开源：

权重全给：所有参数量模型的权重都能下载，不用求着人家要。
过程透明：技术报告、训练细节全公开，想看怎么训的随便看。
能复现：代码和检查点（Checkpoints）都放了，想改代码的研究员可以直接上手。

最后说两句

作为 CodeFuse 开源系列的又一波操作，F2LLM-v2 的发布确实有点意思。它没在那儿喊“我们要改变世界格局”这种空话，就是实打实地把英语中心主义这事儿给捅破了。

虽然目前主要是中文社区在用，但看到低资源语言也能被这样对待，多少让人心里有点小触动。AI 这行，总算是有点“人间烟火气”了，不再只是几个大厂的独角戏。

火龙果频道

您可能还喜欢...