GB300对超大规模企业的影响
GB200和GB300的延迟问题对于超大规模企业(如Meta、Google等)有着重大影响,导致从Q3开始许多订单转向NVIDIA的新GPU。这些公司之所以选择GB300,一方面是因为其性能更优,另一方面也因为能够更好地控制自己的技术路径。
市场动态
- 亚马逊:使用了次优配置,导致总拥有成本(TCO)高于参考设计。由于采用内嵌PCIe交换机和低效的200G弹性光纤适配器NICs,只能选择风冷方案,这限制了他们部署NVL72架构的能力。
- 微软:尽管市场有报告称其取消订单,但实际上是因为较慢的设计速度导致其成为GB300部署中最晚的一批公司之一。因此在Q4还在采购部分GB200。
系统设计与定制
随着GB300的推出,超大规模企业现在可以进行更多自定义设计如主板、冷却系统等组件。例如亚马逊能够构建使用水冷而非风冷的自定义主板,并集成Astera Labs PCIe交换机。这将有助于优化其TCO。
NVIDIA的策略调整
- SXM Puck:NVIDIA通过采用SXM Puck架构,允许更多ODM和OEM参与计算托盘制造,增加了灵活性。
- VRM组件:大部分主板上的VRM内容由超大规模企业直接从供应商处获取。
- ConnectX-8 NIC:GB300平台提供该NIC,支持双倍扩展带宽,并具备48条PCIe通道,相较于上一代产品有显著提升。
对ODM和OEM的影响
市场结构变化导致如Monolithic Power Systems等VRM供应商面临市场份额减少的风险。NVIDIA的营收模式也受到影响,一些原本由其承担的成本将转移至ODM环节。
结论
GB300不仅是性能上的飞跃,也为超大规模企业提供了更多定制与优化的空间。尽管这增加了设计复杂性,但对于那些具备快速响应能力的企业来说仍然是一个巨大的机遇。