Mooncake项目概述
Yuezhian Technology Co., Ltd.和清华大学MADSys实验室联合发布了一个名为Mooncake的开源项目,该项目旨在共同开发一个以KVCache为中心的大模型推理架构。2024年6月,双方宣布了基于Kimi框架的Mooncake推理系统设计计划。该系统采用了分离式的PD(Parameter Distribution)和存储计算架构,显著提升了推理吞吐量,并在业界引起了广泛关注。
关键技术点
- KVCache池:Mooncake项目从学术论文中扩展而来,围绕大规模KVCache池构建。通过创新的存储计算概念减少了计算开销,从而提高了推理吞吐量。
- 分阶段开源策略:该项目采取了分阶段的开源方式,逐步发布了高性能的KVCache多级缓存实现——Mooncake Store,并保证与各种推理引擎和底层存储传输资源的兼容性。目前,Transfer Engine组件已经在GitHub上全球开源。
重要声明
Kimi项目的副总裁徐欣然表示,通过与清华大学MADSys实验室的紧密合作,双方共同开发了分离式的大模型推理架构——Mooncake。该系统实现了对推理资源的极优化,不仅提升了Kimi用户的体验、降低了成本,还提供了处理长文本和高并发需求的有效解决方案。
未来展望
公司认为,通过与行业、学术界和研究机构的合作开源,可以推动整个行业的效率提升,构建更加高效的推理平台。欢迎更多企业及研究机构加入Mooncake项目进行共同开发,探索更高效、先进的模型推理系统架构,让基于大模型技术的AI助手类产品惠及更多用户。
项目地址
Copyright AIbase Base 2024, 点击查看源码
