AI-NEWS · 2025年 9月 13日

蚂蚁集团发布MoE模型

蚂蚁集团与中国人民大学联合发布全球首个原生MoE架构扩散语言模型LLaDA-MoE

核心事件

2025年9月11日,在2025外滩大会上,蚂蚁集团与中国人民大学联合发布了业界首个原生MoE(混合专家)架构的扩散语言模型(dLLM)——LLaDA-MoE。

技术突破

模型架构

  • 架构类型:原生MoE架构扩散语言模型(dLLM)
  • 训练数据量:约20T tokens
  • 参数规模:7B总参数,激活1.4B参数(7B-A1B架构)
  • 训练时长:3个月密集开发

性能表现

  • 在代码、数学和Agent等任务上超越此前发布的稠密扩散语言模型LLaDA1.0/1.5和Dream-7B
  • 接近或超越自回归模型Qwen2.5-3B-Instruct的性能水平
  • 在17个基准测试(包括HumanEval、MBPP、GSM8K、MATH等)上平均提升8.4分
  • 相比LLaDA-1.5领先13.2分,与Qwen2.5-3B-Instruct持平

技术创新

  1. 非自回归掩码扩散机制:首次在大规模语言模型中实现与Qwen2.5相当的语言智能能力
  2. 并行解码优势:解决了自回归模型难以捕获token间双向依赖的问题
  3. 推理速度优势:保持显著推理速度优势

研发背景

当前主流大模型普遍采用自回归生成范式,存在单向建模的固有局限性。研究团队选择差异化路径,专注于并行解码扩散语言模型,但在MoE架构上实现dLLM面临重大技术挑战。

技术实现

  • 基于LLaDA-1.0重写训练代码
  • 使用蚂蚁自研分布式框架ATorch,提供EP并行等加速技术
  • 基于蚂蚁灵积2.0基座模型的训练数据
  • 突破负载均衡和噪声采样漂移等核心挑战

行业意义

  • 验证了"MoE放大器"定律在dLLM领域的适用性
  • 为后续10B-100B稀疏模型提供了可行路径
  • 挑战了"语言模型必须自回归"的主流认知

开源计划

  • 将全面开源模型权重
  • 开源针对dLLM并行特性优化的推理引擎
  • 相比NVIDIA官方fast-dLLM实现显著加速
  • 相关代码和技术报告将在GitHub和Hugging Face社区发布

参与人员

  • 蓝振忠:蚂蚁集团通用人工智能研究中心主任、西湖大学兼任研究员、西湖心辰创始人
  • 李崇轩:中国人民大学高瓴人工智能学院助理教授

发展愿景

通过技术开源,共同推动AGI(通用人工智能)的下一个突破,促进全球AI社区在dLLM领域的技术发展。

火龙果频道