AI-NEWS · 2025年 11月 5日

Azure推理破纪录

微软Azure ND GB300创下推理新纪录:每秒110万tokens!

核心要点

  • 性能突破:微软Azure ND GB300v6虚拟机在Meta Llama2 70B模型上实现每秒110万tokens的推理速度,创行业新纪录
  • 硬件配置:采用72个NVIDIA Blackwell Ultra GPU + 36个NVIDIA Grace CPU的单机架构
  • 能效提升:相比上一代,推理性能提升27%,机架级能效提升近2.5倍

技术细节

硬件规格

  • GPU配置:72个NVIDIA Blackwell Ultra GPU
  • CPU配置:36个NVIDIA Grace CPU
  • 内存优化:GPU内存增加50%
  • 散热设计:热设计功耗(TDP)提升16%

性能验证

  • 测试环境:在NVIDIA GB300NVL72域内的18台ND GB300v6虚拟机
  • 推理引擎:NVIDIA TensorRT-LLM
  • 模型精度:Llama2 70B(FP4精度)
  • 单GPU性能:约15,200 tokens/秒

性能对比

对比项 性能表现
相比NVIDIA GB200 推理性能提升27%,功耗规格仅增加17%
相比NVIDIA H100 推理性能提升近10倍
相比前记录(86.5万tokens/秒) 性能提升约27%

官方声明

微软CEO Satya Nadella表示:"这一成就是我们与NVIDIA长期合作以及在生产规模上运行人工智能专业知识的成果。"

Signal65实验室副总裁Russ Feroes指出:"这一里程碑不仅突破了每秒百万tokens的障碍,而且是在满足现代企业动态使用和数据治理需求的平台上实现的。"

独立验证

该性能记录已由独立性能验证和基准测试公司Signal65进行验证,微软提供了详细的模拟过程和所有日志文件及结果。

火龙果频道