robots.txt
Что такое robots.txt?
robots.txtТекстовый файл в корне сайта, сообщающий добросовестным веб-краулерам, какие пути им можно или нельзя запрашивать; формализован в IETF RFC 9309.
robots.txt — это текстовый файл, размещаемый в корне сайта (например, https://example.com/robots.txt) и использующий Robots Exclusion Protocol, стандартизованный как IETF RFC 9309. Директивы User-agent и Disallow/Allow подсказывают совместимым краулерам, какие URL им разрешено получать, и могут указывать расположение карты сайта. robots.txt — рекомендация, а не контроль доступа: вредоносные боты его игнорируют, а перечисление чувствительных путей фактически становится подсказкой для злоумышленников. Защитники должны сочетать robots.txt с аутентификацией, авторизацией, лимитированием запросов и тегами noindex и не использовать его для сокрытия секретных URL.
● Примеры
- 01
Запись Disallow: /admin/, которую соблюдают честные краулеры, но злоумышленники используют её как подсказку для зондирования.
- 02
Строка Sitemap: https://example.com/sitemap.xml, помогающая поисковикам индексировать публичный контент.
● Частые вопросы
Что такое robots.txt?
Текстовый файл в корне сайта, сообщающий добросовестным веб-краулерам, какие пути им можно или нельзя запрашивать; формализован в IETF RFC 9309. Относится к категории Безопасность приложений в кибербезопасности.
Что означает robots.txt?
Текстовый файл в корне сайта, сообщающий добросовестным веб-краулерам, какие пути им можно или нельзя запрашивать; формализован в IETF RFC 9309.
Как работает robots.txt?
robots.txt — это текстовый файл, размещаемый в корне сайта (например, https://example.com/robots.txt) и использующий Robots Exclusion Protocol, стандартизованный как IETF RFC 9309. Директивы User-agent и Disallow/Allow подсказывают совместимым краулерам, какие URL им разрешено получать, и могут указывать расположение карты сайта. robots.txt — рекомендация, а не контроль доступа: вредоносные боты его игнорируют, а перечисление чувствительных путей фактически становится подсказкой для злоумышленников. Защитники должны сочетать robots.txt с аутентификацией, авторизацией, лимитированием запросов и тегами noindex и не использовать его для сокрытия секретных URL.
Как защититься от robots.txt?
Защита от robots.txt обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия robots.txt?
Распространённые альтернативные названия: Robots Exclusion Protocol, RFC 9309.
● Связанные термины
- appsec№ 1195
Подмена User-Agent
Подделка заголовка User-Agent или сопутствующих Client Hints, чтобы запрос выглядел как отправленный с другого браузера, устройства или ОС, чем в действительности.
- appsec№ 468
Безголовый браузер
Веб-браузер, работающий без графического интерфейса и управляемый программно, часто применяемый для тестирования, скрейпинга и автоматизации задач безопасности.