robots.txt - el cartel de "prohibido el paso" de los sitios web

En el directorio raíz de prácticamente todos los sitios web existe un archivo de texto llamado robots.txt. Este archivo es un mecanismo para indicar a los crawlers (bots) de los motores de búsqueda "por favor, no rastreen esta página". Basado en el "Robots Exclusion Protocol" propuesto por Martijn Koster en 1994, ha funcionado como norma de cortesía en internet durante más de 30 años.

Sin embargo, robots.txt guarda un secreto sorprendente: es una "petición", no una "orden".

robots.txt no tiene fuerza legal vinculante

robots.txt es un "acuerdo de caballeros" con los crawlers. Google, Bing, Yahoo y otros motores de búsqueda importantes respetan robots.txt, pero técnicamente cualquier bot puede ignorarlo y rastrear el sitio. Los scrapers maliciosos y los bots de spam, naturalmente, ignoran robots.txt.

Es decir, robots.txt es una "petición a los bots bien intencionados" y no una medida de seguridad. "Ocultar" páginas con información confidencial mediante robots.txt es como poner un cartel de "prohibido robar" en la puerta de entrada.

robots.txt filtra información sin querer

Irónicamente, robots.txt publica una lista de "lo que se quiere ocultar". Los atacantes revisan robots.txt primero, y a partir de las rutas especificadas con Disallow, deducen la existencia de paneles de administración, entornos de staging, APIs internas, archivos de respaldo, etc.

User-agent: *
Disallow: /admin/
Disallow: /staging/
Disallow: /api/internal/
Disallow: /backup/

Este robots.txt es equivalente a decirle al atacante "existen las rutas /admin/, /staging/, /api/internal/ y /backup/".

Echando un vistazo al robots.txt de sitios famosos

Como robots.txt es un archivo público, cualquiera puede leerlo accediendo a https://example.com/robots.txt de cualquier sitio.

  • YouTube: un robots.txt de cientos de líneas que controla detalladamente páginas internas y endpoints de API
  • Wikipedia: bloquea específicamente ciertos bots (como MJ12bot) por nombre. Una respuesta a bots que sobrecargaron el servidor en el pasado
  • CIA (cia.gov): incluso las agencias gubernamentales usan robots.txt, con entradas como Disallow: /cgi-bin/
  • Amazon: permite el rastreo de páginas de productos pero excluye el carrito, las cuentas y los resultados de búsqueda interna

robots.txt y la nueva batalla con los crawlers de IA

Desde 2023, los crawlers destinados a recopilar datos de entrenamiento para IA generativa (GPTBot, CCBot, Google-Extended, etc.) han aumentado rápidamente, y el papel de robots.txt ha vuelto a cobrar protagonismo. Muchos sitios de noticias y editoriales han comenzado a bloquear los crawlers de IA mediante robots.txt.

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

Sin embargo, dado que robots.txt no es más que una "petición", no hay garantía de que todos los crawlers de IA lo respeten. Incluyendo la relación con las leyes de derechos de autor, la posición de robots.txt en la era de la IA es un debate en curso.

Resumen

robots.txt es un mecanismo que ha funcionado como "norma de cortesía" de internet durante más de 30 años. No tiene fuerza legal vinculante ni sirve como medida de seguridad, pero es una herramienta importante para gestionar la relación con los motores de búsqueda. El robots.txt de IP Check-san también está configurado para que los motores de búsqueda rastreen el sitio adecuadamente.

Términos del glosario relacionados

Bot Programas automatizados que robots.txt intenta controlar. Desde crawlers de motores de búsqueda hasta scrapers maliciosos. DNS Cuando un crawler accede a un sitio, primero resuelve el dominio mediante DNS. HTTPS El propio robots.txt se sirve mediante HTTPS, protegiéndolo contra alteraciones. Dirección IP La IP de origen del crawler. Los bots maliciosos a veces se bloquean por IP.