AI-NEWS · 2024年 11月 28日

柯米与清华推出月饼开源模型推理架构提升AI效率

人工智能推理系统Mooncake的发布与开源

在人工智能快速发展的同时,大型模型的智能水平不断提高,但推理系统的效率问题变得日益突出。解决高负载推理、降低推理成本以及缩短响应时间已经成为整个行业面临的共同挑战。

Mooncake 推理系统方案介绍

  • 合作方: Kimi公司联合清华大学MADSys实验室。
  • 发布时间: 2024年6月正式发布。
  • 技术特点:
    • 创新的PD分离架构和以计算为中心的方法显著提升了推理吞吐量,吸引了业界广泛关注。

Mooncake 开源项目

  • 合作方与参与公司: Kimi、清华大学MADSys实验室以及9AISoft、阿里云和华为存储等多家企业共同发起。
  • 发布时间: 2024年11月28日正式在GitHub平台上开源。
  • 目标:
    • 围绕大规模KVCache池构建技术框架,逐步开放高性能的多级缓存Mooncake Store。
    • 兼容多种推理引擎和底层存储及传输资源。

当前进展

  • 部分Transfer Engine已在全球范围内在GitHub上开源。
  • 最终目标是为大型模型时代建立新的高绩效内存语义存储标准接口,并提供相关的参考实现方案。

引用与展望

  • 高层观点: Kimi公司的工程副总裁徐 Xinran表示,通过与清华大学MADSys实验室的紧密合作,共同创造了分离的大规模模型推理架构Mooncake,实现了推理资源的极致优化。
    • Mooncake不仅提升了用户体验,降低了成本,还提供了处理长文本和高并发需求的有效解决方案。
  • 期待: 希望更多的企业和研究机构加入Mooncake项目,共同探索更高效的模型推理系统架构,让基于大型模型技术的产品如AI助手等能够惠及更多人群。

参考链接
Project link


版权所有 © 2024 AIbase Base

Source:https://www.aibase.com/news/13551