AI-NEWS · 2025年 11月 26日

xLLM开源推理引擎发布

xLLM社区将于12月6日发布开源推理引擎:支持MoE、文生图、文生视频全场景,通过Mooncake缓存方案实现延迟低于20ms

核心信息

  • 发布时间:2025年12月6日
  • 发布形式:xLLM社区首次线下Meetup
  • 活动主题:"构建开源AI基础设施生态"
  • 社区背景:成立仅三个月的xLLM社区

性能表现

在相同GPU配置下,xLLM-Core推理引擎在三种任务类型上的表现:

  • P99延迟:低于20ms
  • 对比vLLM:延迟平均降低42%
  • 吞吐量:提升2.1倍

技术亮点

统一计算图

  • 将语言、视觉和视频生成抽象为"Token-in Token-out"图
  • 单一引擎实现多模态并行处理

Mooncake KV缓存集成

  • 命中率:99.2%(跨三个存储层级:GPU内存、DDR、NVMe)
  • 缓存穿透延迟:<5ms

动态形状批处理

  • 支持在线拼接图像(512×512至2048×2048)和视频(8至128帧)
  • 内存碎片减少:38%

插件化后端

  • 兼容CUDA、ROCm和MTIA
  • 路线图:Apple Silicon和Intel Arc支持计划于2026年第一季度加入

关键案例

北京航空航天大学杨海龙教授将在Meetup分享京东11.11实践:

  • 峰值请求:40,000次/秒
  • 机器成本:降低90%
  • 业务效率:提升5倍

开源计划

  • xLLM-Core 0.9版本:Apache 2.0协议,包含Docker镜像、Python/C++ API和Benchmark脚本
  • 1.0 LTS版本:预计2026年6月发布,提供长期维护和商业支持

参与方式

  • 线下名额:300个席位
  • 线上参与:提供直播
  • 报名渠道:xLLM官方网站

火龙果频道