AI-NEWS · 2025年 11月 26日

xLLM开源推理引擎发布

xLLM社区将于12月6日发布开源推理引擎：支持MoE、文生图、文生视频全场景，通过Mooncake缓存方案实现延迟低于20ms

核心信息

发布时间：2025年12月6日
发布形式：xLLM社区首次线下Meetup
活动主题："构建开源AI基础设施生态"
社区背景：成立仅三个月的xLLM社区

性能表现

在相同GPU配置下，xLLM-Core推理引擎在三种任务类型上的表现：

P99延迟：低于20ms
对比vLLM：延迟平均降低42%
吞吐量：提升2.1倍

技术亮点

统一计算图

将语言、视觉和视频生成抽象为"Token-in Token-out"图
单一引擎实现多模态并行处理

Mooncake KV缓存集成

命中率：99.2%（跨三个存储层级：GPU内存、DDR、NVMe）
缓存穿透延迟：<5ms

动态形状批处理

支持在线拼接图像（512×512至2048×2048）和视频（8至128帧）
内存碎片减少：38%

插件化后端

兼容CUDA、ROCm和MTIA
路线图：Apple Silicon和Intel Arc支持计划于2026年第一季度加入

关键案例

北京航空航天大学杨海龙教授将在Meetup分享京东11.11实践：

峰值请求：40,000次/秒
机器成本：降低90%
业务效率：提升5倍

开源计划

xLLM-Core 0.9版本：Apache 2.0协议，包含Docker镜像、Python/C++ API和Benchmark脚本
1.0 LTS版本：预计2026年6月发布，提供长期维护和商业支持

参与方式

线下名额：300个席位
线上参与：提供直播
报名渠道：xLLM官方网站

火龙果频道

您可能还喜欢...