Moonshot发布新型混合线性注意力架构Kimi Linear
核心技术创新
Kimi Linear是Moonshot AI最新推出的混合线性注意力架构,在短程、长程信息处理以及强化学习等多种场景下,性能均优于传统的全注意力方法。
核心技术:Kimi Delta Attention (KDA)
- 基于Gated DeltaNet的优化版本
- 引入更高效的门控机制
- 显著改善有限状态RNN的内存使用效率
架构组成与性能突破
架构设计
- 由三个Kimi Delta Attention单元和一个全局MLA组成
- 通过细粒度门控压缩有限状态RNN的内存
性能数据(在100万token场景下)
- KV缓存使用量减少75%
- 解码吞吐量提升高达6倍
- TPOT加速6.3倍(相比传统MLA)
应用前景与意义
该架构为各类AI应用场景提供更强支持:
- 信息密集的自然语言处理任务
- 动态环境中的强化学习
- 在效率和性能间实现最佳平衡
这一高效注意力机制有望为未来智能应用带来新的突破,被业界称为智能体时代注意力机制的新起点。
相关开源进展
同时,Moonshot AI已开源KDA内核,并与清华大学MADSys实验室合作推出Mooncake开源项目,共同构建以KVCache为核心的大模型推理架构。
发布日期:2025年10月31日
