AI-NEWS · 2024年 7月 12日

新的Transformer加速技术FlashAttention-3发布 成本直线下降

FlashAttention-3发布:Transformer技术的重大突破

关键亮点

  1. 性能提升:

    • GPU利用率显著提高,推理速度提升1.5至2倍。
    • 支持低精度FP8计算,降低成本同时保持高性能。
  2. 长文本处理:

    • 处理长文本能力大幅提升,使AI模型在更广泛应用场景中表现出色。
  3. 内存优化:

    • 内存消耗与序列长度呈线性关系,比传统二次方关系更高效。

技术亮点

  • 局部注意力、确定性反向传播、ALiBi等先进技术集成,提高模型表达能力和灵活性。
  • 针对Hopper GPU优化,性能进一步增强。
  • 安装使用简便,支持CUDA11.6及以上版本和PyTorch1.12及以上版本,适用于Linux系统,Windows需多测试但同样可用。

核心功能

  • 高效算法: 大幅减少计算和内存需求,特别是在处理长序列数据时性能提升显著。
  • 内存优化: 内存消耗低,线性关系使得大型模型训练和运行更加高效。
  • 易用性与兼容性: 简单安装指南,多GPU架构支持,快速集成到各种项目中。

总结

FlashAttention-3不仅显著提升了大型语言模型(LLMs)的推理速度和处理效率,还大大降低了成本。对于公司而言,这意味着可以在同样资源下实现更高效、更强大的AI模型应用,是一项值得关注和投入的技术创新。

项目地址:FlashAttention GitHub

Source:https://www.aibase.com/news/10195