AI-NEWS · 2026年 4月 25日

DeepMind 新架构:让 AI 训练不再怕断网

Google DeepMind 最近搞了个新东西,叫 Decoupled DiLoCo(解耦的 DiLoCo)。简单来说,就是为了解决大模型训练时最让人头大的两个问题:练得慢,还特别怕服务器坏了。

传统模式为啥这么“脆”?

以前那种大家排好队一起算的同步训练法,毛病其实挺多。最要命的是,只要有一台机器挂掉,整个训练就得停下来等修好,或者等别的机器把进度赶上来。这就导致两个后果:

  • 牵一发而动全身:一台坏了,全队陪葬。
  • 机器都在“摸鱼”:为了等最慢的那台,大家只能干站着。

新架构怎么解决?

DeepMind 这个新方案的核心思路就是“各练各的,最后对账”。

  • 分岛而治:把训练拆成好几个独立的“计算岛”,互不干扰。
  • 想练就练:每个岛上的模型都可以自己跑,不用管别人有没有算完。算好了,把压缩过的梯度发给总调度器汇总就行。
  • 自动续命:这玩意儿有个自愈合功能。要是某个岛崩了,别的岛接着练,等那个岛修好了再插回去接着用,不用从头重来。

数据说话:省下的带宽能买多少服务器?

实测数据确实有点吓人,传统方法和新架构的差距是数量级的:

关键指标 传统数据并行训练 Decoupled DiLoCo 提升/变化幅度
硬件故障下的利用率 27% 88% 提升约 3.3 倍
跨数据中心带宽需求 198 Gbps 0.84 Gbps 降低 99.6%
  • 我的理解:带宽需求从 198 Gbps 跌到 0.84 Gbps,这简直是断崖式下跌。这意味着啥?意味着以后搞全球分布式训练,可能就不用非得买那种昂贵的 InfiniBand 专用网了,普通商用互联网就能扛,这成本省下来的钱够买多少显卡的。

硬件不用“全套换新”也能跑

另外,这个架构对硬件的挑剔程度也降低了。

  • 新老混用:不同代际的 TPU 芯片可以在同一个任务里一起干活。
  • 过渡期不浪费:等新一代芯片还没铺满的时候,旧芯片也能接着用,不用为了等新硬件而让项目烂在锅里。

总结一下

Decoupled DiLoCo 最大的意义在于,它把大规模 AI 训练从那种“娇气”的高性能系统,变成了一种更“皮实”的弹性系统。它证明了只要把异步和智能调度用对,就不需要依赖完美的硬件一致性,也能把效率提上去。这对以后要在全球各地搭超大模型来说,确实是条新路。

注:具体架构细节还得看官方论文,这里主要基于目前的公开信息整理,有些技术实现上的复杂度可能比看起来要复杂一些。

火龙果频道