AI-NEWS · 2025年 8月 9日

PyTorch 2.8量子推理性能飙升

PyTorch 2.8 正式发布:显著提升量化大语言模型推理性能

核心更新亮点

  1. 量化LLM推理性能提升

    • 重点优化Intel CPU上的量化大语言模型(LLM)推理性能
    • 支持多种量化模式:A16W8、DA8W8、A16W4
    • 测试数据:
      • 在Intel第6代Xeon平台运行Llama-3.1-8B模型(M8/K/32核)
      • 端到端延迟降低超过20%
      • 性能可媲美主流LLM服务框架
  2. Intel GPU分布式后端实验性支持

    • 首次引入XCCL分布式后端支持
    • 为不同训练模式提供更大灵活性
    • 扩展模型在更广泛硬件环境中的应用潜力

其他重要改进

  • SYCL支持:增强PyTorch C扩展API能力
  • XPU设备:新增A16W4模式支持
  • 稳定性提升
    • 为libtorch ABI提供稳定接口
    • 减少第三方CCUDA扩展兼容性问题
  • ROCm增强
    • 新增gfx950架构支持
    • 结合TorchInductor和AOTInductor提供多核自动调优模板
  • 控制流操作:引入条件语句和循环,提升模型编译导出效率

影响与意义

此次更新为机器学习领域带来更多可能性,开发者将获得更强大的工具支持,进一步推动大语言模型的应用与发展。

火龙果频道