Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 942

robots.txt

Was ist robots.txt?

robots.txtTextdatei im Site-Root, die wohlerzogenen Webcrawlern mitteilt, welche Pfade sie abrufen durfen, formalisiert in IETF RFC 9309.


robots.txt ist eine Klartextdatei im Stammverzeichnis einer Website (zum Beispiel https://example.com/robots.txt), die das in IETF RFC 9309 standardisierte Robots Exclusion Protocol nutzt. User-agent- und Disallow/Allow-Direktiven informieren konforme Crawler, welche URLs sie abrufen durfen, und der Sitemap-Speicherort kann angegeben werden. robots.txt ist eine Empfehlung, keine Zugriffskontrolle: bosartige Bots ignorieren sie, und das Auflisten sensibler Pfade liefert Angreifern haufig eine Landkarte. Defender sollten robots.txt mit Authentifizierung, Autorisierung, Rate-Limiting und noindex-Tags kombinieren und keine geheimen URLs darin verstecken.

Beispiele

  1. 01

    Eintrag Disallow: /admin/, den brave Crawler respektieren, den Angreifer aber als Hinweis nutzen, um diesen Pfad zu sondieren.

  2. 02

    Zeile Sitemap: https://example.com/sitemap.xml, die Suchmaschinen beim Indexieren offentlicher Inhalte hilft.

Häufige Fragen

Was ist robots.txt?

Textdatei im Site-Root, die wohlerzogenen Webcrawlern mitteilt, welche Pfade sie abrufen durfen, formalisiert in IETF RFC 9309. Es gehört zur Kategorie Anwendungssicherheit der Cybersicherheit.

Was bedeutet robots.txt?

Textdatei im Site-Root, die wohlerzogenen Webcrawlern mitteilt, welche Pfade sie abrufen durfen, formalisiert in IETF RFC 9309.

Wie funktioniert robots.txt?

robots.txt ist eine Klartextdatei im Stammverzeichnis einer Website (zum Beispiel https://example.com/robots.txt), die das in IETF RFC 9309 standardisierte Robots Exclusion Protocol nutzt. User-agent- und Disallow/Allow-Direktiven informieren konforme Crawler, welche URLs sie abrufen durfen, und der Sitemap-Speicherort kann angegeben werden. robots.txt ist eine Empfehlung, keine Zugriffskontrolle: bosartige Bots ignorieren sie, und das Auflisten sensibler Pfade liefert Angreifern haufig eine Landkarte. Defender sollten robots.txt mit Authentifizierung, Autorisierung, Rate-Limiting und noindex-Tags kombinieren und keine geheimen URLs darin verstecken.

Wie schützt man sich gegen robots.txt?

Schutzmaßnahmen gegen robots.txt kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für robots.txt?

Übliche alternative Bezeichnungen: Robots Exclusion Protocol, RFC 9309.

Verwandte Begriffe