AI-NEWS · 2024年 12月 16日

ChatGPT故障原因简报

OpenAI ChatGPT 停机事件分析报告

概述

上周(12月11日),OpenAI 的 ChatGPT 服务及类似的服务 Sora 经历了一次长达4小时10分钟的停机事件,影响了众多用户。现在,OpenAI 正式发布了一份关于此次 ChatGPT 停机事件的详细报告。

根本原因

该事件的根本原因是工程师部署了一个新的遥测服务来从 Kubernetes (K8S) 控制平面收集指标数据。然而,由于配置不当,导致了所有集群中的节点同时执行资源密集型 K8S API 操作。这迅速引发了 API 服务器崩溃,大多数集群的 K8S 数据平面无法处理请求。

技术细节

  • 发生时间:太平洋标准时间下午3:12。
  • 初始问题:遥测服务配置过于广泛导致 API 过载。
  • DNS 功能依赖控制面板:当 API 操作过载时,服务发现机制失效,引发了全面的服务故障。

工程师的困境

在事件发生后的三分钟内,工程师们已经定位了问题。然而,他们无法访问控制平面以回滚服务,导致了一个“死锁”局面。API 服务器崩溃后,无法移除有问题的服务,这进一步阻碍了恢复工作。

恢复过程

为了解决这一问题,OpenAI 工程师采取了一系列措施:

  • 集群缩放:减少 K8S 的 API 负载。
  • 访问控制:阻断对管理 Kubernetes API 的网络访问。
  • 资源增加:扩大了 K8S API 服务器的资源配置以更好地处理请求。

通过这些努力,工程师们最终重新获得了对 K8S 控制平面的控制,并逐步恢复集群。同时,他们将流量导向已恢复或新增加的健康集群以减少其他集群的压力。

经验教训

通过这一事件,OpenAI 明确表示未来要学习如何避免再次被“锁定”在类似情况中。此次事故的关键在于微小的变化可能会引发严重的后果,并且工程师需具备快速响应和灵活处理的能力来应对控制平面的不可用状态。

Source:https://www.aibase.com/news/13990