PyTorch 2.8 正式发布:显著提升量化大语言模型推理性能
核心更新亮点
-
量化LLM推理性能提升
- 重点优化Intel CPU上的量化大语言模型(LLM)推理性能
- 支持多种量化模式:A16W8、DA8W8、A16W4
- 测试数据:
- 在Intel第6代Xeon平台运行Llama-3.1-8B模型(M8/K/32核)
- 端到端延迟降低超过20%
- 性能可媲美主流LLM服务框架
-
Intel GPU分布式后端实验性支持
- 首次引入XCCL分布式后端支持
- 为不同训练模式提供更大灵活性
- 扩展模型在更广泛硬件环境中的应用潜力
其他重要改进
- SYCL支持:增强PyTorch C扩展API能力
- XPU设备:新增A16W4模式支持
- 稳定性提升:
- 为libtorch ABI提供稳定接口
- 减少第三方CCUDA扩展兼容性问题
- ROCm增强:
- 新增gfx950架构支持
- 结合TorchInductor和AOTInductor提供多核自动调优模板
- 控制流操作:引入条件语句和循环,提升模型编译导出效率
影响与意义
此次更新为机器学习领域带来更多可能性,开发者将获得更强大的工具支持,进一步推动大语言模型的应用与发展。