Moonshot发布Kimi Linear模型:长文本处理速度提升2.9倍
核心突破
- 长文本处理速度:提升2.9倍
- 解码速度:提升6倍
- KV缓存:减少75%
技术架构创新
1. 混合线性注意力架构
- 采用Kimi Delta Attention (KDA) 机制
- 引入细粒度门控机制,优化记忆管理
- 动态调整记忆状态,控制信息遗忘与保留
2. Moonlight架构设计
- KDA与全注意力层以3:1比例混合
- 平衡计算效率与模型性能
- 突破传统Softmax注意力机制的O(n²)复杂度限制
性能表现
计算效率提升
- 传统Transformer:计算复杂度O(n²)
- Kimi Linear:计算复杂度降至O(n)
- 显著降低长文本处理时的计算负载和内存消耗
任务表现优异
- 在回文和多查询关联召回任务中表现突出
- 长文本记忆任务准确率远超先前模型
- 在上下文处理和强化学习等多个场景中优于传统方法
技术意义
该模型突破了传统全注意力机制的性能瓶颈,为智能体时代的注意力机制提供了新的起点。同时,团队已开源KDA内核,推动技术生态发展。
信息来源:AIbase Daily – 2025年11月4日
