核心动态:蚂蚁和上交大联手,把“英语中心”给掀了
3 月 26 日,蚂蚁集团 CodeFuse 团队联合上海交通大学,直接甩出了一套新的 Embedding 模型——F2LLM-v2。这东西全开源,免费给全球开发者用。最让我觉得有意思的,是它彻底打破了咱们行业里那个老毛病:太依赖英语。
性能表现:榜单上横着走,拿了 11 个第一
去 MTEB(目前最权威的那个 Embedding 评测榜单)上看数据,这模型有点“不讲武德”:
- 全语言通吃:它在 11 种不同语言榜单上全是第一,包括德语、法语、日语这些。
- 小个子打怪升级:哪怕是最小的那个轻量级版本,只要参数量一样,就能把业界那些大名鼎鼎的大模型按在地上摩擦。
- 活儿包全了:评测覆盖了 430 个子场景,从医疗问答到代码检索,没它不行的。
说实话,看到小模型能赢大模型,心里还是有点“这合理吗”的疑问,但数据摆在那,挺硬核。
懂啥语言?282 种自然语言 + 40 多种编程语言
这模型之所以这么“卷”,主要是训练底子铺得广:
- 照顾冷门语言:以前那些北欧语系、东南亚语系这种“没人用”的语言,这次被重点照顾了。
- 懂代码:它深谙 40 多种编程语言(比如 Python、Java、Go)。如果你要做 RAG(检索增强生成)或者写代码的助手,这东西能省不少心。
- 料挺纯:用的是 6000 万条清洗过的公开数据,不像有些模型把乱七八糟的网路数据一股脑塞进去。
效率玩命卷:80M 到 14B,手机也能跑
为了满足不同场景,他们搞了一整套模型矩阵:
- 手机不卡:80M 到 330M 的小模型,用了“剪枝”和“蒸馏”技术,在手机上流畅跑完全没压力。
- 有个“黑科技”:支持动态调整维度。用户想快点?切 8 维;想准点?切全维。自己权衡速度和存多少空间,挺灵活。
完全开源:别藏着掖着了
跟那些动不动就“闭源”的模型不一样,F2LLM-v2 玩的是实打实的开源:
- 权重全给:所有参数量模型的权重都能下载,不用求着人家要。
- 过程透明:技术报告、训练细节全公开,想看怎么训的随便看。
- 能复现:代码和检查点(Checkpoints)都放了,想改代码的研究员可以直接上手。
最后说两句
作为 CodeFuse 开源系列的又一波操作,F2LLM-v2 的发布确实有点意思。它没在那儿喊“我们要改变世界格局”这种空话,就是实打实地把英语中心主义这事儿给捅破了。
虽然目前主要是中文社区在用,但看到低资源语言也能被这样对待,多少让人心里有点小触动。AI 这行,总算是有点“人间烟火气”了,不再只是几个大厂的独角戏。
