AI-NEWS · 2025年 3月 20日

英伟达GPU创推理性能纪录

NVIDIA GTC 2025 Blackwell GPU 发布会总结

1. 核心产品发布

  • Blackwell GPU:NVIDIA在GTC 2025大会上发布了新一代Blackwell GPU,专为AI和高性能计算设计。
  • DeepSeek-R1:基于Blackwell GPU的AI模型,支持250 tokens和30,000 tokens的处理能力。

2. 技术亮点

  • Tensor Core FP4:Blackwell GPU支持FP4精度,相比Hopper GPU的FP8,性能提升显著。
  • NVLink技术:Blackwell GPU采用新一代NVLink技术,支持GPU间高速互联。
  • TensorRT-LLM优化:TensorRT-LLM 0.25版本支持FP4量化(PTQ),KV Cache优化提升AI模型推理效率。
  • cuDNN 9.7:支持Flash Attention和FP8优化,GEMM性能提升50%,LLM推理效率提升84%。
  • CUTLASS 3.8:支持FP4和MoE(Mixture of Experts)架构,适用于大规模语言模型(LLM)。

3. 性能数据

  • DeepSeek-R1:在MMLU、GSM8K、AIME 2024等基准测试中表现优异,支持FP4量化训练(QAT)。
  • Nemotron 4:模型规模从15B到340B,支持FP4量化。

4. 应用场景

  • AI PC:Blackwell GPU支持AI PC,如RTX 5090,适用于高性能AI计算。
  • Flux.1 Black Forest Labs:基于TensorRT的AI优化平台,支持FP4和FP8推理。

5. 未来展望

  • 2025年1月:Blackwell GPU将正式商用,预计在36个月内完成32个核心产品的迭代。
  • AI生态扩展:NVIDIA将继续推动AI生态发展,支持更多开源模型(如Llama 3.1和Llama 3.3)和开发者工具。

6. 总结

NVIDIA Blackwell GPU的发布标志着AI计算进入新纪元,其FP4精度、NVLink互联和TensorRT优化技术将大幅提升AI模型的训练和推理效率,为未来AI应用提供强大支持。

火龙果频道