蚂蚁集团百灵大模型团队开源Ring-flash-linear-2.0-128K：混合注意力与MoE架构重塑长文本编程效率

核心亮点

创新架构：结合混合线性注意力与MoE架构，仅激活6.1B参数即可实现媲美40B稠密模型的性能
超长上下文：原生支持128K上下文，可通过YaRN技术扩展至512K
高效推理：在H20硬件上实现每秒200+ token的生成速度，日常使用速度提升3倍以上
开源可用：已在Hugging Face和ModelScope同步发布，支持一键部署

技术架构解析

混合注意力机制

主体结构：采用自研线性注意力融合模块
辅助增强：配合少量标准注意力机制
性能优势：针对长序列计算优化，实现近线性时间复杂度和常数空间复杂度

MoE架构优化

参数规模：总参数量104B
激活策略：通过132专家激活比例和多任务处理层优化，仅激活6.1B参数（嵌入层外4.8B）
效率提升：相比传统模型大幅降低计算资源需求

训练升级与性能表现

训练优化

数据增强：在Ling-flash-base-2.0基础上，额外使用1T token高质量数据进行训练
算法创新：采用自研"Icepop"算法，结合稳定监督微调和多阶段强化学习
稳定性提升：克服MoE长链推理训练中的不稳定性问题

基准测试成绩

数学能力：AIME2025数学竞赛得分86.98
编程能力：CodeForces编程Elo评分90.23
综合表现：在逻辑推理和创意写作方面超越40B稠密模型（如Qwen3-32B）

长文本处理能力

上下文扩展

原生支持：128K上下文窗口
技术扩展：通过YaRN外推技术可扩展至512K
性能表现：
- 预填充阶段吞吐量比Qwen3-32B提升近5倍
- 解码阶段实现10倍加速

应用场景优势

前端开发
结构化代码生成
智能体模拟
32K上下文编程任务中保持高精度，无"模型泄漏"或漂浮感问题

部署与使用

平台支持

Hugging Face：完整模型权重发布
ModelScope：同步支持
格式支持：BF16/FP8格式

快速入门

# 安装依赖
pip install flash-linear-attention==0.3.2 transformers==4.56.1

# vLLM在线推理配置
tensor-parallel-size=4，GPU利用率达90%

技术文档

技术报告：arXiv提供详细技术文档
立即体验：支持直接下载使用

行业影响与展望

效率突破

从Ling2.0系列到Ring-linear实现7倍以上效率提升
长文本推理成本仅为传统方案的1/10

生态重塑

编程新手：可即时生成复杂脚本
智能体系统：变得更智能可靠
企业应用：轻松部署高效AI解决方案

未来展望

即将推出Ring-1T万亿级旗舰模型
国产MoE架构有望在全球高效AI竞赛中占据主导地位

总结

蚂蚁集团百灵团队的这次开源标志着在"MoE+长推理链+RL"技术路径上的新突破，为开发者社区提供了更高效、更强大的长文本编程工具，有望推动整个AI开发生态系统的效率革命。

火龙果频道

近期新闻

AI-NEWS · 2025年 10月 29日

蚂蚁开源长文本模型

蚂蚁集团百灵大模型团队开源Ring-flash-linear-2.0-128K：混合注意力与MoE架构重塑长文本编程效率

核心亮点

技术架构解析

混合注意力机制

MoE架构优化

训练升级与性能表现

训练优化

基准测试成绩

长文本处理能力

上下文扩展

应用场景优势

部署与使用

平台支持

快速入门

技术文档

行业影响与展望

效率突破

生态重塑

未来展望

总结

您可能还喜欢...

AI-NEWS · 2025年 10月 29日

蚂蚁集团百灵大模型团队开源Ring-flash-linear-2.0-128K：混合注意力与MoE架构重塑长文本编程效率

核心亮点

技术架构解析

混合注意力机制

MoE架构优化

训练升级与性能表现

训练优化

基准测试成绩

长文本处理能力

上下文扩展

应用场景优势

部署与使用

平台支持

快速入门

技术文档

行业影响与展望

效率突破

生态重塑

未来展望

总结

您可能还喜欢...

Humanoid Robot Adam Debuts at Walmart: Can Serve 200 Cups of Tea and Coffee in a Day

马斯克Grok-3挑战AI王座

微软用AI技术复制圣彼得大教堂数字模型