Facebook停机6小时的原因是什么?

2021年10月,工程师的BGP配置错误导致Facebook所有BGP路由被撤回,网络从互联网上"消失"。内部工具也无法使用,不得不亲自赶到数据中心恢复。

有办法确认网站是否宕机吗?

可以在Down Detector查看故障报告,或通过IP确认酱确认自己的连接是否正常。用其他设备或移动网络尝试也有效。

流量激增(过载)、工程师配置错误(人为失误)、软件Bug、DDoS攻击、DNS故障、证书过期等是主要原因。

"服务器崩溃了""网站挂了"，你经常在新闻中听到这些话，但实际上发生了什么？即使是世界上最大的服务也无法避免故障。而且原因往往出人意料地平凡。

Facebook、Instagram 和 WhatsApp 完全离线约 6 小时。原因是 BGP 配置错误。一名 Facebook 工程师在修改路由设置时，意外撤回了公司所有的 BGP 路由。

结果，Facebook 的网络从互联网上"消失"了，DNS 域名解析也停止工作。更糟糕的是，由于所有内部工具也托管在 Facebook 的网络上，工程师们失去了访问和修复问题的手段。最终，他们不得不亲自前往数据中心手动恢复服务器。

Amazon Web Services 的 S3（存储服务）宕机约 4 小时，影响了 Netflix、Slack、Trello 等众多服务。原因是一名工程师在调试时输错了命令，关闭了比预期更多的服务器。

这次故障的讽刺之处在于，AWS 自己的状态页面也托管在 S3 上，所以他们无法显示故障信息。

被全球约 20% 网站使用的 CDN 服务 Cloudflare 发生故障，影响了 Discord、Shopify、Fitbit 等众多服务。原因是网络配置变更触发了意外的连锁反应。

几乎所有 Google 服务，Gmail、YouTube、Google Drive、Google Maps 等，宕机约 47 分钟。原因是认证系统的存储容量耗尽。所有需要登录的服务都受到了影响。

当你无法访问某个网站时，有方法可以判断是你的连接问题还是网站的问题。

即使是世界上最大的服务，也可能因为一个配置失误而宕机数小时。网站故障的原因从流量激增、人为失误到 DDoS 攻击和 DNS 故障不等。下次无法访问某个网站时，先在 IP 确认酱上检查你的连接，然后在 Down Detector 上查看网站端的故障信息。