AI-NEWS · 2025年 11月 14日

东北大学发布多语言翻译导弹

东北大学开源多语言翻译大模型NiuTrans.LMT:支持60种语言与234个翻译方向

核心突破

  • 语言覆盖:全面支持60种语言234个翻译方向
  • 低资源语言突破:在29种低资源语言(包括藏语、阿姆哈拉语等)上实现重大进展
  • 发布时间:2025年11月13日

技术架构创新

双中心设计打破"英语霸权"

  • 采用中英双中心架构,而非传统的单一英语中心
  • 支持中文与58种语言、英文与59种语言的直接互译
  • 避免"中文→英文→小语种"的二次语义损失
  • 特别有利于"一带一路"沿线国家与中文使用者的直接交流

三层语言资源分级

  1. 13种高资源语言(法语、阿拉伯语、西班牙语等)

    • 翻译流畅度达到人类水平
  2. 18种中资源语言(印地语、芬兰语等)

    • 专业术语和语法结构高度准确
  3. 29种低资源语言(藏语、斯瓦希里语、孟加拉语等)

    • 通过数据增强和迁移学习,实现从"不可翻译"到"可用翻译"的跨越

训练方法与性能表现

两阶段训练流程

  1. 持续预训练(CPT)

    • 在900亿token的多语言语料库上均衡学习
    • 确保小语种不被边缘化
  2. 监督微调(SFT)

    • 整合FLORES-200和WMT的高质量平行语料
    • 包含56.7万个样本,覆盖117个翻译方向
    • 提升翻译准确性和风格一致性

权威评测表现

  • 在多语言基准FLORES-200上表现优异
  • 在开源模型中持续排名第一

开源策略与部署方案

四种参数规模

  • 0.6B、1.7B、4B、8B四个版本同时开源
  • 全部可在GitHub和Hugging Face免费下载

应用场景覆盖

  • 轻量版:可在消费级GPU运行,适合移动端部署
  • 8B版:面向企业级高精度翻译场景
  • 支持API集成和私有化部署

意义与影响

该模型的发布不仅是技术成就,更是"保护语言多样性"的具体实践。当AI能够准确翻译藏语诗歌、非洲谚语或北欧古籍时,技术才真正具备了人文温度。东北大学的开源举措正在为全球无语言障碍的数字未来奠定基础。

火龙果频道