OpenAI ChatGPT 停机事件分析报告

概述

上周（12月11日），OpenAI 的 ChatGPT 服务及类似的服务 Sora 经历了一次长达4小时10分钟的停机事件，影响了众多用户。现在，OpenAI 正式发布了一份关于此次 ChatGPT 停机事件的详细报告。

该事件的根本原因是工程师部署了一个新的遥测服务来从 Kubernetes (K8S) 控制平面收集指标数据。然而，由于配置不当，导致了所有集群中的节点同时执行资源密集型 K8S API 操作。这迅速引发了 API 服务器崩溃，大多数集群的 K8S 数据平面无法处理请求。

在事件发生后的三分钟内，工程师们已经定位了问题。然而，他们无法访问控制平面以回滚服务，导致了一个“死锁”局面。API 服务器崩溃后，无法移除有问题的服务，这进一步阻碍了恢复工作。

为了解决这一问题，OpenAI 工程师采取了一系列措施：

通过这些努力，工程师们最终重新获得了对 K8S 控制平面的控制，并逐步恢复集群。同时，他们将流量导向已恢复或新增加的健康集群以减少其他集群的压力。

通过这一事件，OpenAI 明确表示未来要学习如何避免再次被“锁定”在类似情况中。此次事故的关键在于微小的变化可能会引发严重的后果，并且工程师需具备快速响应和灵活处理的能力来应对控制平面的不可用状态。