AntBaiLing团队发布新一代高效推理模型Ring-mini-sparse-2.0-exp
模型概述
蚂蚁灵韵大模型团队于2025年10月27日开源发布了新一代高效推理模型——Ring-mini-sparse-2.0-exp。该模型基于Ling2.0架构,专门针对长序列解码场景进行优化,采用了创新的稀疏注意力机制。
核心技术创新
架构设计
- 高稀疏度MoE结构:集成高稀疏比例的专家混合结构
- 稀疏注意力机制:采用创新的稀疏注意力设计
- Ling2.0Sparse架构:专门应对大语言模型未来发展的两大核心趋势
- 上下文长度扩展
- 测试时扩展
技术细节
- MoBA设计理念:借鉴混合块注意力设计概念
- 块状稀疏注意力:将输入Key和Value分块处理
- 高效计算优化:
- 每个查询在头维度选择top-k块
- 仅对选定块执行softmax计算
- 显著降低计算成本
- GQA集成:结合分组查询注意力,同一组内查询头共享top-k块选择结果,降低IO成本
性能表现
吞吐量提升
- 长序列处理:相比前代Ring-mini-2.0,吞吐量提升近3倍
- 推理性能:在多个高难度推理基准测试中持续保持SOTA性能
核心优势
- 优秀的上下文处理能力
- 高效的推理能力
- 为开源社区提供新的轻量级解决方案
开源信息
模型已在多个平台开源,方便社区应用和研究。
关键要点总结
- 在长序列推理场景表现卓越,吞吐量提升近3倍
- 采用创新稀疏注意力机制,平衡高效推理与上下文处理能力
- 多平台开源,便于社区应用和研究
