Incluso los servicios famosos se han caído
"El servidor se cayó", "El sitio se cayó" - escuchas estas frases en las noticias todo el tiempo, pero ¿qué está pasando realmente? Incluso los servicios más grandes del mundo no pueden evitar las interrupciones. Y las causas son a menudo sorprendentemente mundanas.
Incidentes notables de caídas de servicios
La caída de 6 horas de Facebook (octubre 2021)
Facebook, Instagram y WhatsApp quedaron completamente fuera de línea durante aproximadamente 6 horas. La causa fue un error de configuración de BGP. Cuando un ingeniero de Facebook modificó la configuración de enrutamiento, retiró accidentalmente todas las rutas BGP de la empresa.
Como resultado, la red de Facebook "desapareció" de internet, y la resolución de nombres DNS también dejó de funcionar. Además, como todas las herramientas internas también estaban alojadas en la red de Facebook, los ingenieros perdieron los medios para acceder y solucionar el problema. Finalmente, tuvieron que desplazarse físicamente al centro de datos y restaurar los servidores manualmente.
Gran caída de AWS (febrero 2017)
El servicio S3 (almacenamiento) de Amazon Web Services se cayó durante aproximadamente 4 horas, afectando a numerosos servicios como Netflix, Slack y Trello. La causa fue un ingeniero que escribió mal un comando durante la depuración, apagando más servidores de los previstos.
Lo irónico de esta caída fue que la propia página de estado de AWS estaba alojada en S3, por lo que no pudieron mostrar información sobre la interrupción.
Caída de Cloudflare (junio 2022)
Cloudflare, un servicio de CDN utilizado por aproximadamente el 20% de los sitios web del mundo, experimentó una caída que afectó a numerosos servicios como Discord, Shopify y Fitbit. La causa fue un cambio en la configuración de red que desencadenó una reacción en cadena inesperada.
Caída total de 47 minutos de Google (diciembre 2020)
Casi todos los servicios de Google - Gmail, YouTube, Google Drive, Google Maps y más - se cayeron durante aproximadamente 47 minutos. La causa fue que el almacenamiento del sistema de autenticación se quedó sin capacidad. Todos los servicios que requerían inicio de sesión se vieron afectados.
Principales razones por las que los sitios web se caen
- Picos de tráfico (sobrecarga): Los aumentos repentinos de acceso por ventas de entradas populares, lanzamientos de ofertas o noticias de última hora superan la capacidad de procesamiento del servidor
- Errores de configuración (error humano): Las caídas causadas por errores de ingenieros son extremadamente comunes. Tanto el incidente de BGP de Facebook como el de S3 de AWS fueron errores humanos
- Errores de software: Bugs incluidos en actualizaciones que se descubren en el entorno de producción
- Ataques DDoS: Ataques que inundan intencionalmente los servidores con cantidades masivas de tráfico para derribarlos
- Fallos de DNS: Cuando el DNS falla, los usuarios no pueden acceder al sitio aunque el servidor funcione normalmente
- Expiración de certificados: Cuando un certificado HTTPS expira, los navegadores muestran advertencias y bloquean el acceso
- Fallos físicos: Cortes de energía en centros de datos, fallos en sistemas de refrigeración, cortes de cables submarinos
Cómo verificar si un sitio está "caído"
Cuando no puedes acceder a un sitio, hay formas de determinar si el problema es tu conexión o del sitio.
- Down Detector: Un sitio que agrega informes de interrupciones de usuarios de todo el mundo en tiempo real
- isitdown.site: Un sitio que verifica si una URL específica es accesible desde varias ubicaciones del mundo
- IP Check-san: Primero verifica que tu propia conexión a internet funcione. Si se muestra tu dirección IP, tu conexión está bien
- Prueba desde otro dispositivo o red: Intenta acceder mediante la conexión de datos móviles de tu smartphone
Resumen
Incluso los servicios más grandes del mundo pueden caerse durante horas por un solo error de configuración. Las causas de las caídas de sitios web van desde picos de tráfico y errores humanos hasta ataques DDoS y fallos de DNS. La próxima vez que no puedas acceder a un sitio, primero verifica tu conexión en IP Check-san, luego consulta Down Detector para información sobre caídas del sitio.