小米发布新一代MoE大模型MiMo-V2-Flash,支持AGI发展
在2025年12月17日举行的“2025小米人车家全生态合作伙伴大会”上,小米MiMO大模型新任负责人罗福莉首次公开亮相,并正式发布了最新的混合专家(MoE)大模型——MiMo-V2-Flash。该模型被视为小米实现通用人工智能(AGI)目标的第二步。
核心技术架构与特性
罗福莉在社交媒体上详细介绍了MiMo-V2-Flash的技术架构。
-
混合SWA架构:
- 该架构设计简洁优雅。
- 在长上下文推理任务中,性能显著优于其他线性注意力变体。
- 研究指出,128的窗口大小是最优选择,更大的窗口反而会降低模型性能。
- 固定的KV缓存设计,提升了与现有基础设施的兼容性。
-
多令牌预测技术:
- 通过采用多令牌预测技术,模型在高效强化学习方面取得了显著提升。
- 即使在第一层之后,MTP也只需极少的微调即可实现较高的接受长度。
- 在编程任务中,三层MTP表现尤为出色,接受长度大于3,速度提升约2.5倍,有效解决了小批量On-Policy强化学习中的GPU闲置问题。
训练后阶段的创新
在训练后阶段,小米采用了Thinking Machine提出的On-Policy蒸馏方法,旨在整合多个强化学习模型。
- 通过该方法,小米仅用传统监督微调与强化学习流程15%的计算成本,就成功达到了教师模型的性能。
- 这一过程展示了学生模型持续进化的潜力,最终形成了一个自我强化的循环。
罗福莉表示,团队在短短几个月内就将这些构想转化为生产系统,展现了非凡的效率和创造力。
模型开源与性能亮点
根据同日其他相关报道的补充信息,MiMo-V2-Flash模型具有以下特点:
- 开源信息:模型参数规模达3090亿,权重和代码已在MIT许可证下开源。
- 性能优势:专为高速高效设计,在推理、代码生成等任务中表现出色,响应速度超越多款国内主流模型。
- 成本优势:其API调用成本低至每百万tokens 0.1元人民币。
- 架构特点:采用稀疏激活架构。
关键要点总结
- MiMo-V2-Flash是小米实现AGI目标的第二步,采用先进的MoE架构。
- 多令牌预测技术显著提升了模型性能和速度。
- 在训练后阶段,通过整合多个RL模型,展现了强大的自我强化能力。
- 模型已开源,在速度与成本上具备竞争优势。
