AI-NEWS · 2025年 11月 14日

微软建跨洲AI超算集群

微软构建跨大陆数据中心超级集群以支持大规模AI模型训练

核心要点

微软正在建设一系列跨大陆数据中心超级集群,旨在满足未来人工智能模型的训练需求。这些新设施将连接多个数据中心,通过高速网络实现高效数据传输,目标支持参数规模高达数万亿的AI模型。

项目细节

首个节点启动

  • 时间:2024年10月
  • 地点:威斯康星州芒特普莱森特数据中心园区
  • 连接设施:佐治亚州亚特兰大数据中心
  • 集群名称:"Fairwater"集群

技术特点

  • 建筑结构:两层建筑
  • 冷却技术:采用直接连接芯片的液冷技术
  • 水资源消耗:几乎不消耗水资源
  • 扩展计划:未来计划扩展到数万个多样化GPU,以满足不同工作负载需求

网络连接技术

技术选项

虽然微软尚未透露连接两个数据中心的具体技术,但行业内有多种可用方案:

  • 思科51.2Tbps路由器
  • 博通新款Jericho4硬件
  • 有效连接距离:最远可达1000公里

网络协议

微软在高性能计算环境中广泛使用英伟达的InfiniBand网络协议,体现了对高效数据传输的承诺。

行业背景与发展

技术挑战

减少AI工作负载中的带宽和延迟问题仍是研究人员关注的重点。

技术突破

谷歌DeepMind团队发布报告显示,通过以下方式可以克服许多挑战:

  • 在训练期间压缩模型
  • 合理安排数据中心之间的通信

战略优势

通过互联数据中心,微软能够:

  • 训练更大规模的模型
  • 选择土地成本低、气候适宜、电力资源丰富的地区建设新设施

火龙果频道