あの有名サービスも落ちたことがある

「サーバーが落ちた」「サイトがダウンした」- ニュースでよく聞くフレーズですが、具体的に何が起きているのでしょうか。世界最大級のサービスでさえ障害は避けられません。その原因は、意外と身近なものだったりします。

有名サービスの障害事例

Facebook の 6 時間停止 (2021 年 10 月)

Facebook、Instagram、WhatsApp が約 6 時間にわたって完全に停止しました。原因は BGP の設定ミスです。Facebook のエンジニアがルーティング設定を変更した際、誤って自社のすべての BGP 経路を撤回してしまいました。

その結果、インターネット上から Facebook のネットワークが「消滅」し、DNS でも名前解決ができなくなりました。さらに、社内のツールもすべて Facebook のネットワーク上にあったため、エンジニアが問題を修正するためのアクセス手段すら失われました。最終的に、データセンターに物理的に駆けつけてサーバーを手動で復旧させました。

AWS の大規模障害 (2017 年 2 月)

Amazon Web Services の S3 (ストレージサービス) が約 4 時間停止し、Netflix、Slack、Trello など多数のサービスが影響を受けました。原因は、エンジニアがデバッグ作業中にコマンドの入力を間違え、想定より多くのサーバーを停止させてしまったことです。

この障害の皮肉な点は、AWS のステータスページ自体が S3 上にホストされていたため、障害情報を表示できなかったことです。

Cloudflare の障害 (2022 年 6 月)

世界中の Web サイトの約 20% が利用する CDN サービス Cloudflare が障害を起こし、Discord、Shopify、Fitbit など多数のサービスに影響しました。原因は、ネットワーク設定の変更が予期せぬ連鎖反応を引き起こしたことです。

Google の 47 分間の全サービス停止 (2020 年 12 月)

Gmail、YouTube、Google Drive、Google Maps など、Google のほぼすべてのサービスが約 47 分間停止しました。原因は、認証システムのストレージが容量不足になったことです。ログインが必要なすべてのサービスが影響を受けました。

Web サイトが落ちる主な原因

  • アクセス集中 (過負荷): 人気チケットの発売、セール開始、ニュース速報などでアクセスが急増し、サーバーの処理能力を超える
  • 設定ミス (ヒューマンエラー): エンジニアの操作ミスが原因の障害は非常に多い。Facebook の BGP 事故、AWS の S3 事故はいずれも人為的ミス
  • ソフトウェアのバグ: アップデートに含まれるバグが本番環境で発覚する
  • DDoS 攻撃: 大量のアクセスを意図的に送りつけてサーバーをダウンさせる攻撃
  • DNS 障害: DNS が壊れると、サーバー自体は正常でもユーザーがアクセスできなくなる
  • 証明書の期限切れ: HTTPS の証明書が期限切れになると、ブラウザが警告を表示してアクセスをブロックする
  • 物理的な障害: データセンターの停電、冷却装置の故障、海底ケーブルの切断

「落ちた?」を確認する方法

サイトにアクセスできないとき、自分の回線の問題なのか、サイト側の問題なのかを確認する方法があります。

  • Down Detector: 世界中のユーザーからの障害報告をリアルタイムで集計するサイト
  • isitdown.site: 指定した URL が世界各地からアクセス可能かチェックするサイト
  • IP 確認さん: まず自分のインターネット接続が正常かを確認。IP アドレスが表示されれば、自分の回線は問題なし
  • 別のデバイスやネットワークで試す: スマートフォンのモバイル回線でアクセスしてみる

まとめ

世界最大級のサービスでさえ、設定ミス一つで何時間も停止します。Web サイトが落ちる原因は、アクセス集中、ヒューマンエラー、DDoS 攻撃、DNS 障害など多岐にわたります。次にサイトにアクセスできなくなったら、まず IP 確認さんで自分の接続を確認し、Down Detector でサイト側の障害情報をチェックしてみてください。

Web サーバーの可用性と障害対策を学びたい方には、サーバー管理の入門書が参考になります。

この記事の関連用語

DNS DNS 障害はサーバーが正常でもアクセス不能にする。Facebook の 2021 年障害の主因。 BGP BGP の設定ミスでネットワーク全体が「消滅」した Facebook の事例。 IP アドレス サイトが落ちているか確認する第一歩は、自分の IP アドレスが正常に取得できるかの確認。 HTTPS 証明書の期限切れはサイトダウンの意外な原因の一つ。