谷歌 (Google)解释周日宕机事故原因:服务器配置变更导致

2019-06-02 08:56:23 谷歌 33345

       美国时间周日 Google 发生了持续数小时的严重宕机事故,影响到了几乎所有 Google 服务如 Google Cloud、G Suite 和 YouTube,以及托管在 Google 云上的服务如 Snapchat、Nest、Discord。Google 官方博客解释了事故原因:服务器配置变更导致。

  Google 称,配置变更原意是应用于单一区域的少数服务器,但却错误应用于多个毗邻区域的大量服务器,导致这些区域停止使用一半以上的可用网络容量,进出这些区域的网络流量试图适应剩余的网络容量,但未能成功。

  网络开始拥堵,网络系统对过载流量进行分类,丢弃了大部分对延迟不那么敏感的流量,以保护少数对延迟敏感的流量。Google 称它的工程师团队立刻探测到了问题,但诊断和修复花了更长时间。

  在事故期间,YouTube 流量下降了 10%,Google Cloud Storage 下降了 30%,1% 的 Gmail 活跃用户无法接收和发送邮件。