robots.txt
Qu'est-ce que robots.txt ?
robots.txtFichier texte place a la racine du site qui indique aux robots respectueux les chemins qu'ils peuvent ou non recuperer, formalise par le RFC 9309 de l'IETF.
robots.txt est un fichier texte place a la racine d'un site (par exemple https://example.com/robots.txt) qui utilise le Robots Exclusion Protocol standardise par le RFC 9309 de l'IETF. Il contient des directives User-agent et Disallow/Allow consultees par les robots conformes avant de recuperer des URLs et peut indiquer l'emplacement du sitemap. robots.txt est un mecanisme indicatif, pas un controle d'acces : les bots malveillants l'ignorent et y lister des chemins sensibles sert souvent de feuille de route aux attaquants. Les defenseurs doivent l'associer a une authentification, une autorisation, du rate limiting et des balises noindex, et ne pas l'utiliser pour cacher des URLs secretes.
● Exemples
- 01
Entree Disallow: /admin/ respectee par les bons robots mais utilisee comme indice par les attaquants pour sonder ce chemin.
- 02
Ligne Sitemap: https://example.com/sitemap.xml aidant les moteurs a indexer le contenu public.
● Questions fréquentes
Qu'est-ce que robots.txt ?
Fichier texte place a la racine du site qui indique aux robots respectueux les chemins qu'ils peuvent ou non recuperer, formalise par le RFC 9309 de l'IETF. Cette notion relève de la catégorie Sécurité applicative en cybersécurité.
Que signifie robots.txt ?
Fichier texte place a la racine du site qui indique aux robots respectueux les chemins qu'ils peuvent ou non recuperer, formalise par le RFC 9309 de l'IETF.
Comment fonctionne robots.txt ?
robots.txt est un fichier texte place a la racine d'un site (par exemple https://example.com/robots.txt) qui utilise le Robots Exclusion Protocol standardise par le RFC 9309 de l'IETF. Il contient des directives User-agent et Disallow/Allow consultees par les robots conformes avant de recuperer des URLs et peut indiquer l'emplacement du sitemap. robots.txt est un mecanisme indicatif, pas un controle d'acces : les bots malveillants l'ignorent et y lister des chemins sensibles sert souvent de feuille de route aux attaquants. Les defenseurs doivent l'associer a une authentification, une autorisation, du rate limiting et des balises noindex, et ne pas l'utiliser pour cacher des URLs secretes.
Comment se défendre contre robots.txt ?
Les défenses contre robots.txt combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de robots.txt ?
Noms alternatifs courants : Protocole d'exclusion des robots, RFC 9309.
● Termes liés
- appsec№ 1195
Usurpation d'User-Agent
Falsification de l'en-tete User-Agent ou des Client Hints associes pour qu'une requete semble provenir d'un autre navigateur, appareil ou systeme d'exploitation qu'en realite.
- appsec№ 468
Navigateur sans tete
Navigateur web qui s'execute sans interface graphique et est pilote par programmation, utilise pour les tests, le scraping et l'automatisation de securite.