AI-NEWS · 2026年 3月 27日

蚂蚁发布 F2LLM-v2:不靠英语也能跑

核心动态:蚂蚁和上交大联手,把“英语中心”给掀了

3 月 26 日,蚂蚁集团 CodeFuse 团队联合上海交通大学,直接甩出了一套新的 Embedding 模型——F2LLM-v2。这东西全开源,免费给全球开发者用。最让我觉得有意思的,是它彻底打破了咱们行业里那个老毛病:太依赖英语。


性能表现:榜单上横着走,拿了 11 个第一

去 MTEB(目前最权威的那个 Embedding 评测榜单)上看数据,这模型有点“不讲武德”:

  • 全语言通吃:它在 11 种不同语言榜单上全是第一,包括德语、法语、日语这些。
  • 小个子打怪升级:哪怕是最小的那个轻量级版本,只要参数量一样,就能把业界那些大名鼎鼎的大模型按在地上摩擦。
  • 活儿包全了:评测覆盖了 430 个子场景,从医疗问答到代码检索,没它不行的。

说实话,看到小模型能赢大模型,心里还是有点“这合理吗”的疑问,但数据摆在那,挺硬核。


懂啥语言?282 种自然语言 + 40 多种编程语言

这模型之所以这么“卷”,主要是训练底子铺得广:

  • 照顾冷门语言:以前那些北欧语系、东南亚语系这种“没人用”的语言,这次被重点照顾了。
  • 懂代码:它深谙 40 多种编程语言(比如 Python、Java、Go)。如果你要做 RAG(检索增强生成)或者写代码的助手,这东西能省不少心。
  • 料挺纯:用的是 6000 万条清洗过的公开数据,不像有些模型把乱七八糟的网路数据一股脑塞进去。

效率玩命卷:80M 到 14B,手机也能跑

为了满足不同场景,他们搞了一整套模型矩阵:

  • 手机不卡:80M 到 330M 的小模型,用了“剪枝”和“蒸馏”技术,在手机上流畅跑完全没压力。
  • 有个“黑科技”:支持动态调整维度。用户想快点?切 8 维;想准点?切全维。自己权衡速度和存多少空间,挺灵活。

完全开源:别藏着掖着了

跟那些动不动就“闭源”的模型不一样,F2LLM-v2 玩的是实打实的开源:

  • 权重全给:所有参数量模型的权重都能下载,不用求着人家要。
  • 过程透明:技术报告、训练细节全公开,想看怎么训的随便看。
  • 能复现:代码和检查点(Checkpoints)都放了,想改代码的研究员可以直接上手。

最后说两句

作为 CodeFuse 开源系列的又一波操作,F2LLM-v2 的发布确实有点意思。它没在那儿喊“我们要改变世界格局”这种空话,就是实打实地把英语中心主义这事儿给捅破了。

虽然目前主要是中文社区在用,但看到低资源语言也能被这样对待,多少让人心里有点小触动。AI 这行,总算是有点“人间烟火气”了,不再只是几个大厂的独角戏。

火龙果频道