Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 942

robots.txt

Qu'est-ce que robots.txt ?

robots.txtFichier texte place a la racine du site qui indique aux robots respectueux les chemins qu'ils peuvent ou non recuperer, formalise par le RFC 9309 de l'IETF.


robots.txt est un fichier texte place a la racine d'un site (par exemple https://example.com/robots.txt) qui utilise le Robots Exclusion Protocol standardise par le RFC 9309 de l'IETF. Il contient des directives User-agent et Disallow/Allow consultees par les robots conformes avant de recuperer des URLs et peut indiquer l'emplacement du sitemap. robots.txt est un mecanisme indicatif, pas un controle d'acces : les bots malveillants l'ignorent et y lister des chemins sensibles sert souvent de feuille de route aux attaquants. Les defenseurs doivent l'associer a une authentification, une autorisation, du rate limiting et des balises noindex, et ne pas l'utiliser pour cacher des URLs secretes.

Exemples

  1. 01

    Entree Disallow: /admin/ respectee par les bons robots mais utilisee comme indice par les attaquants pour sonder ce chemin.

  2. 02

    Ligne Sitemap: https://example.com/sitemap.xml aidant les moteurs a indexer le contenu public.

Questions fréquentes

Qu'est-ce que robots.txt ?

Fichier texte place a la racine du site qui indique aux robots respectueux les chemins qu'ils peuvent ou non recuperer, formalise par le RFC 9309 de l'IETF. Cette notion relève de la catégorie Sécurité applicative en cybersécurité.

Que signifie robots.txt ?

Fichier texte place a la racine du site qui indique aux robots respectueux les chemins qu'ils peuvent ou non recuperer, formalise par le RFC 9309 de l'IETF.

Comment fonctionne robots.txt ?

robots.txt est un fichier texte place a la racine d'un site (par exemple https://example.com/robots.txt) qui utilise le Robots Exclusion Protocol standardise par le RFC 9309 de l'IETF. Il contient des directives User-agent et Disallow/Allow consultees par les robots conformes avant de recuperer des URLs et peut indiquer l'emplacement du sitemap. robots.txt est un mecanisme indicatif, pas un controle d'acces : les bots malveillants l'ignorent et y lister des chemins sensibles sert souvent de feuille de route aux attaquants. Les defenseurs doivent l'associer a une authentification, une autorisation, du rate limiting et des balises noindex, et ne pas l'utiliser pour cacher des URLs secretes.

Comment se défendre contre robots.txt ?

Les défenses contre robots.txt combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.

Quels sont les autres noms de robots.txt ?

Noms alternatifs courants : Protocole d'exclusion des robots, RFC 9309.

Termes liés