蚂蚁集团与中国人民大学联合发布全球首个原生MoE架构扩散语言模型LLaDA-MoE
核心事件
2025年9月11日,在2025外滩大会上,蚂蚁集团与中国人民大学联合发布了业界首个原生MoE(混合专家)架构的扩散语言模型(dLLM)——LLaDA-MoE。
技术突破
模型架构
- 架构类型:原生MoE架构扩散语言模型(dLLM)
- 训练数据量:约20T tokens
- 参数规模:7B总参数,激活1.4B参数(7B-A1B架构)
- 训练时长:3个月密集开发
性能表现
- 在代码、数学和Agent等任务上超越此前发布的稠密扩散语言模型LLaDA1.0/1.5和Dream-7B
- 接近或超越自回归模型Qwen2.5-3B-Instruct的性能水平
- 在17个基准测试(包括HumanEval、MBPP、GSM8K、MATH等)上平均提升8.4分
- 相比LLaDA-1.5领先13.2分,与Qwen2.5-3B-Instruct持平
技术创新
- 非自回归掩码扩散机制:首次在大规模语言模型中实现与Qwen2.5相当的语言智能能力
- 并行解码优势:解决了自回归模型难以捕获token间双向依赖的问题
- 推理速度优势:保持显著推理速度优势
研发背景
当前主流大模型普遍采用自回归生成范式,存在单向建模的固有局限性。研究团队选择差异化路径,专注于并行解码扩散语言模型,但在MoE架构上实现dLLM面临重大技术挑战。
技术实现
- 基于LLaDA-1.0重写训练代码
- 使用蚂蚁自研分布式框架ATorch,提供EP并行等加速技术
- 基于蚂蚁灵积2.0基座模型的训练数据
- 突破负载均衡和噪声采样漂移等核心挑战
行业意义
- 验证了"MoE放大器"定律在dLLM领域的适用性
- 为后续10B-100B稀疏模型提供了可行路径
- 挑战了"语言模型必须自回归"的主流认知
开源计划
- 将全面开源模型权重
- 开源针对dLLM并行特性优化的推理引擎
- 相比NVIDIA官方fast-dLLM实现显著加速
- 相关代码和技术报告将在GitHub和Hugging Face社区发布
参与人员
- 蓝振忠:蚂蚁集团通用人工智能研究中心主任、西湖大学兼任研究员、西湖心辰创始人
- 李崇轩:中国人民大学高瓴人工智能学院助理教授
发展愿景
通过技术开源,共同推动AGI(通用人工智能)的下一个突破,促进全球AI社区在dLLM领域的技术发展。