robots.txt
robots.txt 是什么?
robots.txt放置在网站根目录的纯文本文件,告知守规则的爬虫哪些路径可以或不可以抓取,由 IETF RFC 9309 正式标准化。
robots.txt 是放在网站根目录(如 https://example.com/robots.txt)的纯文本文件,使用 IETF RFC 9309 标准化的 Robots Exclusion Protocol。它通过 User-agent 与 Disallow/Allow 指令告诉守规则的爬虫哪些路径可以访问,还可以声明 Sitemap 位置。robots.txt 仅是建议性机制,并非访问控制:恶意爬虫常常忽略它,把敏感路径列出反而成为攻击者的指引。防御方应将其与认证、授权、速率限制和 noindex 标签结合使用,不要用它来隐藏机密 URL。
● 示例
- 01
Disallow: /admin/ 条目,守规则的爬虫会遵守,但攻击者会把它作为探测管理路径的线索。
- 02
Sitemap: https://example.com/sitemap.xml 行,帮助搜索引擎索引公开内容。
● 常见问题
robots.txt 是什么?
放置在网站根目录的纯文本文件,告知守规则的爬虫哪些路径可以或不可以抓取,由 IETF RFC 9309 正式标准化。 它属于网络安全的 应用安全 分类。
robots.txt 是什么意思?
放置在网站根目录的纯文本文件,告知守规则的爬虫哪些路径可以或不可以抓取,由 IETF RFC 9309 正式标准化。
robots.txt 是如何工作的?
robots.txt 是放在网站根目录(如 https://example.com/robots.txt)的纯文本文件,使用 IETF RFC 9309 标准化的 Robots Exclusion Protocol。它通过 User-agent 与 Disallow/Allow 指令告诉守规则的爬虫哪些路径可以访问,还可以声明 Sitemap 位置。robots.txt 仅是建议性机制,并非访问控制:恶意爬虫常常忽略它,把敏感路径列出反而成为攻击者的指引。防御方应将其与认证、授权、速率限制和 noindex 标签结合使用,不要用它来隐藏机密 URL。
如何防御 robots.txt?
针对 robots.txt 的防御通常结合技术控制与运营实践,详见上方完整定义。
robots.txt 还有哪些其他名称?
常见的别称包括: 机器人排除协议, RFC 9309。