AI-NEWS · 2024年 11月 28日

柯米与清华推出月饼开源模型推理架构提升AI效率

人工智能推理系统Mooncake的发布与开源

在人工智能快速发展的同时，大型模型的智能水平不断提高，但推理系统的效率问题变得日益突出。解决高负载推理、降低推理成本以及缩短响应时间已经成为整个行业面临的共同挑战。

Mooncake 推理系统方案介绍

合作方: Kimi公司联合清华大学MADSys实验室。
发布时间: 2024年6月正式发布。
技术特点:
- 创新的PD分离架构和以计算为中心的方法显著提升了推理吞吐量，吸引了业界广泛关注。

Mooncake 开源项目

合作方与参与公司: Kimi、清华大学MADSys实验室以及9AISoft、阿里云和华为存储等多家企业共同发起。
发布时间: 2024年11月28日正式在GitHub平台上开源。
目标:
- 围绕大规模KVCache池构建技术框架，逐步开放高性能的多级缓存Mooncake Store。
- 兼容多种推理引擎和底层存储及传输资源。

当前进展

部分Transfer Engine已在全球范围内在GitHub上开源。
最终目标是为大型模型时代建立新的高绩效内存语义存储标准接口，并提供相关的参考实现方案。

引用与展望

高层观点: Kimi公司的工程副总裁徐 Xinran表示，通过与清华大学MADSys实验室的紧密合作，共同创造了分离的大规模模型推理架构Mooncake，实现了推理资源的极致优化。
- Mooncake不仅提升了用户体验，降低了成本，还提供了处理长文本和高并发需求的有效解决方案。
期待: 希望更多的企业和研究机构加入Mooncake项目，共同探索更高效的模型推理系统架构，让基于大型模型技术的产品如AI助手等能够惠及更多人群。

参考链接
Project link

版权所有 © 2024 AIbase Base

Source:https://www.aibase.com/news/13551

您可能还喜欢...