AI-NEWS · 2025年 8月 9日

PyTorch 2.8量子推理性能飙升

PyTorch 2.8 正式发布：显著提升量化大语言模型推理性能

核心更新亮点

量化LLM推理性能提升
- 重点优化Intel CPU上的量化大语言模型(LLM)推理性能
- 支持多种量化模式：A16W8、DA8W8、A16W4
- 测试数据：
  - 在Intel第6代Xeon平台运行Llama-3.1-8B模型(M8/K/32核)
  - 端到端延迟降低超过20%
  - 性能可媲美主流LLM服务框架
Intel GPU分布式后端实验性支持
- 首次引入XCCL分布式后端支持
- 为不同训练模式提供更大灵活性
- 扩展模型在更广泛硬件环境中的应用潜力

其他重要改进

SYCL支持：增强PyTorch C扩展API能力
XPU设备：新增A16W4模式支持
稳定性提升：
- 为libtorch ABI提供稳定接口
- 减少第三方CCUDA扩展兼容性问题
ROCm增强：
- 新增gfx950架构支持
- 结合TorchInductor和AOTInductor提供多核自动调优模板
控制流操作：引入条件语句和循环，提升模型编译导出效率

影响与意义

此次更新为机器学习领域带来更多可能性，开发者将获得更强大的工具支持，进一步推动大语言模型的应用与发展。

火龙果频道

您可能还喜欢...