蚂蚁集团开源LLaDA 2.0:业界首个1000亿参数扩散语言模型
发布日期:2025年12月12日
来源:AIbase
核心摘要
蚂蚁技术研究院正式发布了LLaDA 2.0系列模型,这是业界首个参数规模达到1000亿的离散扩散大语言模型。该模型打破了扩散模型难以扩展的传统认知,并在生成质量与推理速度上实现了显著提升。
模型版本与技术亮点
版本构成
- LLaDA 2.0-mini:160亿参数版本。
- LLaDA 2.0-flash:本次发布的1000亿参数版本,是目前最大的扩散语言模型。
关键技术突破
- 创新的预训练策略:采用全新的Warmup-Stable-Decay预训练策略,实现了自回归模型知识的无缝继承,避免了从头训练的高昂成本。
- 显著的推理加速:
- 推理速度达到535 tokens/秒。
- 比同类自回归模型快2.1倍。
- 加速得益于推理过程中的KV Cache重用和块级并行解码技术。
- 后训练优化:通过互补掩码和置信度感知并行训练技术,进一步优化了模型的数据效率和推理速度。
性能表现与应用场景
评估表现
LLaDA 2.0在多项评估中表现突出,尤其在代码生成等结构化生成任务中,展现出更强的全局规划能力。
优势场景
- 复杂代码生成与指令执行:1000亿参数版本在此类任务中性能卓越。
- 复杂智能体调用与长文本任务:表现出强大的适应性。
- 多样化应用场景:展示了扩散模型在超大规模应用中的可行性与优势。
行业意义与未来规划
里程碑意义
此次发布标志着离散扩散技术的一个重要里程碑,为大规模语言模型的发展开辟了新方向。
未来发展方向
蚂蚁集团计划:
- 继续探索扩散模型的潜力。
- 进一步扩大参数规模。
- 深度融合强化学习与思维范式。
- 致力于推动生成式AI的进步。
本文由AIbase Daily团队整理,内容聚焦于AI技术趋势与创新应用。
