AI-NEWS · 2025年 10月 28日

蚁百灵发布新推理模型

AntBaiLing团队发布新一代高效推理模型Ring-mini-sparse-2.0-exp

模型概述

蚂蚁灵韵大模型团队于2025年10月27日开源发布了新一代高效推理模型——Ring-mini-sparse-2.0-exp。该模型基于Ling2.0架构,专门针对长序列解码场景进行优化,采用了创新的稀疏注意力机制。

核心技术创新

架构设计

  • 高稀疏度MoE结构:集成高稀疏比例的专家混合结构
  • 稀疏注意力机制:采用创新的稀疏注意力设计
  • Ling2.0Sparse架构:专门应对大语言模型未来发展的两大核心趋势
    • 上下文长度扩展
    • 测试时扩展

技术细节

  • MoBA设计理念:借鉴混合块注意力设计概念
  • 块状稀疏注意力:将输入Key和Value分块处理
  • 高效计算优化
    • 每个查询在头维度选择top-k块
    • 仅对选定块执行softmax计算
    • 显著降低计算成本
  • GQA集成:结合分组查询注意力,同一组内查询头共享top-k块选择结果,降低IO成本

性能表现

吞吐量提升

  • 长序列处理:相比前代Ring-mini-2.0,吞吐量提升近3倍
  • 推理性能:在多个高难度推理基准测试中持续保持SOTA性能

核心优势

  • 优秀的上下文处理能力
  • 高效的推理能力
  • 为开源社区提供新的轻量级解决方案

开源信息

模型已在多个平台开源,方便社区应用和研究。

关键要点总结

  1. 在长序列推理场景表现卓越,吞吐量提升近3倍
  2. 采用创新稀疏注意力机制,平衡高效推理与上下文处理能力
  3. 多平台开源,便于社区应用和研究

火龙果频道