robots.txt
¿Qué es robots.txt?
robots.txtFichero de texto en la raiz del sitio que indica a los rastreadores correctos que rutas pueden o no recuperar, formalizado en el RFC 9309 del IETF.
robots.txt es un fichero de texto plano colocado en la raiz de un sitio web (por ejemplo https://example.com/robots.txt) que usa el Robots Exclusion Protocol estandarizado en el RFC 9309 del IETF. Contiene directivas User-agent y Disallow/Allow que los rastreadores compatibles consultan antes de recuperar URLs y puede anunciar la ubicacion del sitemap. robots.txt es un mecanismo de aviso, no un control de acceso: los bots maliciosos lo ignoran a menudo y listar rutas sensibles funciona como hoja de ruta para atacantes. Los defensores deben combinarlo con autenticacion, autorizacion, limitacion de tasa y etiquetas noindex, y evitar usarlo para ocultar URLs secretas.
● Ejemplos
- 01
Entrada Disallow: /admin/ que los rastreadores correctos respetan pero los atacantes usan como pista para sondear esa ruta.
- 02
Linea Sitemap: https://example.com/sitemap.xml que ayuda a los buscadores a indexar el contenido publico.
● Preguntas frecuentes
¿Qué es robots.txt?
Fichero de texto en la raiz del sitio que indica a los rastreadores correctos que rutas pueden o no recuperar, formalizado en el RFC 9309 del IETF. Pertenece a la categoría de Seguridad de aplicaciones en ciberseguridad.
¿Qué significa robots.txt?
Fichero de texto en la raiz del sitio que indica a los rastreadores correctos que rutas pueden o no recuperar, formalizado en el RFC 9309 del IETF.
¿Cómo funciona robots.txt?
robots.txt es un fichero de texto plano colocado en la raiz de un sitio web (por ejemplo https://example.com/robots.txt) que usa el Robots Exclusion Protocol estandarizado en el RFC 9309 del IETF. Contiene directivas User-agent y Disallow/Allow que los rastreadores compatibles consultan antes de recuperar URLs y puede anunciar la ubicacion del sitemap. robots.txt es un mecanismo de aviso, no un control de acceso: los bots maliciosos lo ignoran a menudo y listar rutas sensibles funciona como hoja de ruta para atacantes. Los defensores deben combinarlo con autenticacion, autorizacion, limitacion de tasa y etiquetas noindex, y evitar usarlo para ocultar URLs secretas.
¿Cómo defenderse de robots.txt?
Las defensas contra robots.txt combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para robots.txt?
Nombres alternativos comunes: Protocolo de exclusion de robots, RFC 9309.
● Términos relacionados
- appsec№ 1195
Suplantacion de User-Agent
Falsificacion de la cabecera User-Agent o de los client hints relacionados para que una peticion parezca provenir de un navegador, dispositivo o sistema operativo distinto al real.
- appsec№ 468
Navegador sin interfaz
Navegador web que se ejecuta sin interfaz gráfica y se controla mediante código, utilizado para pruebas, scraping y automatización de seguridad.