微软Azure ND GB300创下推理新纪录:每秒110万tokens!
核心要点
- 性能突破:微软Azure ND GB300v6虚拟机在Meta Llama2 70B模型上实现每秒110万tokens的推理速度,创行业新纪录
- 硬件配置:采用72个NVIDIA Blackwell Ultra GPU + 36个NVIDIA Grace CPU的单机架构
- 能效提升:相比上一代,推理性能提升27%,机架级能效提升近2.5倍
技术细节
硬件规格
- GPU配置:72个NVIDIA Blackwell Ultra GPU
- CPU配置:36个NVIDIA Grace CPU
- 内存优化:GPU内存增加50%
- 散热设计:热设计功耗(TDP)提升16%
性能验证
- 测试环境:在NVIDIA GB300NVL72域内的18台ND GB300v6虚拟机
- 推理引擎:NVIDIA TensorRT-LLM
- 模型精度:Llama2 70B(FP4精度)
- 单GPU性能:约15,200 tokens/秒
性能对比
| 对比项 | 性能表现 |
|---|---|
| 相比NVIDIA GB200 | 推理性能提升27%,功耗规格仅增加17% |
| 相比NVIDIA H100 | 推理性能提升近10倍 |
| 相比前记录(86.5万tokens/秒) | 性能提升约27% |
官方声明
微软CEO Satya Nadella表示:"这一成就是我们与NVIDIA长期合作以及在生产规模上运行人工智能专业知识的成果。"
Signal65实验室副总裁Russ Feroes指出:"这一里程碑不仅突破了每秒百万tokens的障碍,而且是在满足现代企业动态使用和数据治理需求的平台上实现的。"
独立验证
该性能记录已由独立性能验证和基准测试公司Signal65进行验证,微软提供了详细的模拟过程和所有日志文件及结果。
