微软构建跨大陆数据中心超级集群以支持大规模AI模型训练
核心要点
微软正在建设一系列跨大陆数据中心超级集群,旨在满足未来人工智能模型的训练需求。这些新设施将连接多个数据中心,通过高速网络实现高效数据传输,目标支持参数规模高达数万亿的AI模型。
项目细节
首个节点启动
- 时间:2024年10月
- 地点:威斯康星州芒特普莱森特数据中心园区
- 连接设施:佐治亚州亚特兰大数据中心
- 集群名称:"Fairwater"集群
技术特点
- 建筑结构:两层建筑
- 冷却技术:采用直接连接芯片的液冷技术
- 水资源消耗:几乎不消耗水资源
- 扩展计划:未来计划扩展到数万个多样化GPU,以满足不同工作负载需求
网络连接技术
技术选项
虽然微软尚未透露连接两个数据中心的具体技术,但行业内有多种可用方案:
- 思科51.2Tbps路由器
- 博通新款Jericho4硬件
- 有效连接距离:最远可达1000公里
网络协议
微软在高性能计算环境中广泛使用英伟达的InfiniBand网络协议,体现了对高效数据传输的承诺。
行业背景与发展
技术挑战
减少AI工作负载中的带宽和延迟问题仍是研究人员关注的重点。
技术突破
谷歌DeepMind团队发布报告显示,通过以下方式可以克服许多挑战:
- 在训练期间压缩模型
- 合理安排数据中心之间的通信
战略优势
通过互联数据中心,微软能够:
- 训练更大规模的模型
- 选择土地成本低、气候适宜、电力资源丰富的地区建设新设施
