xLLM社区将于12月6日发布开源推理引擎:支持MoE、文生图、文生视频全场景,通过Mooncake缓存方案实现延迟低于20ms
核心信息
- 发布时间:2025年12月6日
- 发布形式:xLLM社区首次线下Meetup
- 活动主题:"构建开源AI基础设施生态"
- 社区背景:成立仅三个月的xLLM社区
性能表现
在相同GPU配置下,xLLM-Core推理引擎在三种任务类型上的表现:
- P99延迟:低于20ms
- 对比vLLM:延迟平均降低42%
- 吞吐量:提升2.1倍
技术亮点
统一计算图
- 将语言、视觉和视频生成抽象为"Token-in Token-out"图
- 单一引擎实现多模态并行处理
Mooncake KV缓存集成
- 命中率:99.2%(跨三个存储层级:GPU内存、DDR、NVMe)
- 缓存穿透延迟:<5ms
动态形状批处理
- 支持在线拼接图像(512×512至2048×2048)和视频(8至128帧)
- 内存碎片减少:38%
插件化后端
- 兼容CUDA、ROCm和MTIA
- 路线图:Apple Silicon和Intel Arc支持计划于2026年第一季度加入
关键案例
北京航空航天大学杨海龙教授将在Meetup分享京东11.11实践:
- 峰值请求:40,000次/秒
- 机器成本:降低90%
- 业务效率:提升5倍
开源计划
- xLLM-Core 0.9版本:Apache 2.0协议,包含Docker镜像、Python/C++ API和Benchmark脚本
- 1.0 LTS版本:预计2026年6月发布,提供长期维护和商业支持
参与方式
- 线下名额:300个席位
- 线上参与:提供直播
- 报名渠道:xLLM官方网站
