NVIDIA GTC 2025 Blackwell GPU 发布会总结
1. 核心产品发布
- Blackwell GPU:NVIDIA在GTC 2025大会上发布了新一代Blackwell GPU,专为AI和高性能计算设计。
- DeepSeek-R1:基于Blackwell GPU的AI模型,支持250 tokens和30,000 tokens的处理能力。
2. 技术亮点
- Tensor Core FP4:Blackwell GPU支持FP4精度,相比Hopper GPU的FP8,性能提升显著。
- NVLink技术:Blackwell GPU采用新一代NVLink技术,支持GPU间高速互联。
- TensorRT-LLM优化:TensorRT-LLM 0.25版本支持FP4量化(PTQ),KV Cache优化提升AI模型推理效率。
- cuDNN 9.7:支持Flash Attention和FP8优化,GEMM性能提升50%,LLM推理效率提升84%。
- CUTLASS 3.8:支持FP4和MoE(Mixture of Experts)架构,适用于大规模语言模型(LLM)。
3. 性能数据
- DeepSeek-R1:在MMLU、GSM8K、AIME 2024等基准测试中表现优异,支持FP4量化训练(QAT)。
- Nemotron 4:模型规模从15B到340B,支持FP4量化。
4. 应用场景
- AI PC:Blackwell GPU支持AI PC,如RTX 5090,适用于高性能AI计算。
- Flux.1 Black Forest Labs:基于TensorRT的AI优化平台,支持FP4和FP8推理。
5. 未来展望
- 2025年1月:Blackwell GPU将正式商用,预计在36个月内完成32个核心产品的迭代。
- AI生态扩展:NVIDIA将继续推动AI生态发展,支持更多开源模型(如Llama 3.1和Llama 3.3)和开发者工具。
6. 总结
NVIDIA Blackwell GPU的发布标志着AI计算进入新纪元,其FP4精度、NVLink互联和TensorRT优化技术将大幅提升AI模型的训练和推理效率,为未来AI应用提供强大支持。