AI-NEWS · 2025年 10月 29日

蚂蚁开源长文本模型

蚂蚁集团百灵大模型团队开源Ring-flash-linear-2.0-128K:混合注意力与MoE架构重塑长文本编程效率

核心亮点

  • 创新架构:结合混合线性注意力与MoE架构,仅激活6.1B参数即可实现媲美40B稠密模型的性能
  • 超长上下文:原生支持128K上下文,可通过YaRN技术扩展至512K
  • 高效推理:在H20硬件上实现每秒200+ token的生成速度,日常使用速度提升3倍以上
  • 开源可用:已在Hugging Face和ModelScope同步发布,支持一键部署

技术架构解析

混合注意力机制

  • 主体结构:采用自研线性注意力融合模块
  • 辅助增强:配合少量标准注意力机制
  • 性能优势:针对长序列计算优化,实现近线性时间复杂度和常数空间复杂度

MoE架构优化

  • 参数规模:总参数量104B
  • 激活策略:通过132专家激活比例和多任务处理层优化,仅激活6.1B参数(嵌入层外4.8B)
  • 效率提升:相比传统模型大幅降低计算资源需求

训练升级与性能表现

训练优化

  • 数据增强:在Ling-flash-base-2.0基础上,额外使用1T token高质量数据进行训练
  • 算法创新:采用自研"Icepop"算法,结合稳定监督微调和多阶段强化学习
  • 稳定性提升:克服MoE长链推理训练中的不稳定性问题

基准测试成绩

  • 数学能力:AIME2025数学竞赛得分86.98
  • 编程能力:CodeForces编程Elo评分90.23
  • 综合表现:在逻辑推理和创意写作方面超越40B稠密模型(如Qwen3-32B)

长文本处理能力

上下文扩展

  • 原生支持:128K上下文窗口
  • 技术扩展:通过YaRN外推技术可扩展至512K
  • 性能表现
    • 预填充阶段吞吐量比Qwen3-32B提升近5倍
    • 解码阶段实现10倍加速

应用场景优势

  • 前端开发
  • 结构化代码生成
  • 智能体模拟
  • 32K上下文编程任务中保持高精度,无"模型泄漏"或漂浮感问题

部署与使用

平台支持

  • Hugging Face:完整模型权重发布
  • ModelScope:同步支持
  • 格式支持:BF16/FP8格式

快速入门

# 安装依赖
pip install flash-linear-attention==0.3.2 transformers==4.56.1

# vLLM在线推理配置
tensor-parallel-size=4,GPU利用率达90%

技术文档

  • 技术报告:arXiv提供详细技术文档
  • 立即体验:支持直接下载使用

行业影响与展望

效率突破

  • 从Ling2.0系列到Ring-linear实现7倍以上效率提升
  • 长文本推理成本仅为传统方案的1/10

生态重塑

  • 编程新手:可即时生成复杂脚本
  • 智能体系统:变得更智能可靠
  • 企业应用:轻松部署高效AI解决方案

未来展望

  • 即将推出Ring-1T万亿级旗舰模型
  • 国产MoE架构有望在全球高效AI竞赛中占据主导地位

总结

蚂蚁集团百灵团队的这次开源标志着在"MoE+长推理链+RL"技术路径上的新突破,为开发者社区提供了更高效、更强大的长文本编程工具,有望推动整个AI开发生态系统的效率革命。

火龙果频道