AI-NEWS · 2024年 11月 28日

清华与Kimi发布开源推理架构Mooncake

Mooncake项目概述

Yuezhian Technology Co., Ltd.和清华大学MADSys实验室联合发布了一个名为Mooncake的开源项目,该项目旨在共同开发一个以KVCache为中心的大模型推理架构。2024年6月,双方宣布了基于Kimi框架的Mooncake推理系统设计计划。该系统采用了分离式的PD(Parameter Distribution)和存储计算架构,显著提升了推理吞吐量,并在业界引起了广泛关注。

关键技术点

  1. KVCache池:Mooncake项目从学术论文中扩展而来,围绕大规模KVCache池构建。通过创新的存储计算概念减少了计算开销,从而提高了推理吞吐量。
  2. 分阶段开源策略:该项目采取了分阶段的开源方式,逐步发布了高性能的KVCache多级缓存实现——Mooncake Store,并保证与各种推理引擎和底层存储传输资源的兼容性。目前,Transfer Engine组件已经在GitHub上全球开源。

重要声明

Kimi项目的副总裁徐欣然表示,通过与清华大学MADSys实验室的紧密合作,双方共同开发了分离式的大模型推理架构——Mooncake。该系统实现了对推理资源的极优化,不仅提升了Kimi用户的体验、降低了成本,还提供了处理长文本和高并发需求的有效解决方案。

未来展望

公司认为,通过与行业、学术界和研究机构的合作开源,可以推动整个行业的效率提升,构建更加高效的推理平台。欢迎更多企业及研究机构加入Mooncake项目进行共同开发,探索更高效、先进的模型推理系统架构,让基于大模型技术的AI助手类产品惠及更多用户。

项目地址

Copyright AIbase Base 2024, 点击查看源码

![](WeChat Screenshot20241128110432.png)

Source:https://www.aibase.com/news/13552