Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 942

robots.txt

robots.txt 是什么?

robots.txt放置在网站根目录的纯文本文件,告知守规则的爬虫哪些路径可以或不可以抓取,由 IETF RFC 9309 正式标准化。


robots.txt 是放在网站根目录(如 https://example.com/robots.txt)的纯文本文件,使用 IETF RFC 9309 标准化的 Robots Exclusion Protocol。它通过 User-agent 与 Disallow/Allow 指令告诉守规则的爬虫哪些路径可以访问,还可以声明 Sitemap 位置。robots.txt 仅是建议性机制,并非访问控制:恶意爬虫常常忽略它,把敏感路径列出反而成为攻击者的指引。防御方应将其与认证、授权、速率限制和 noindex 标签结合使用,不要用它来隐藏机密 URL。

示例

  1. 01

    Disallow: /admin/ 条目,守规则的爬虫会遵守,但攻击者会把它作为探测管理路径的线索。

  2. 02

    Sitemap: https://example.com/sitemap.xml 行,帮助搜索引擎索引公开内容。

常见问题

robots.txt 是什么?

放置在网站根目录的纯文本文件,告知守规则的爬虫哪些路径可以或不可以抓取,由 IETF RFC 9309 正式标准化。 它属于网络安全的 应用安全 分类。

robots.txt 是什么意思?

放置在网站根目录的纯文本文件,告知守规则的爬虫哪些路径可以或不可以抓取,由 IETF RFC 9309 正式标准化。

robots.txt 是如何工作的?

robots.txt 是放在网站根目录(如 https://example.com/robots.txt)的纯文本文件,使用 IETF RFC 9309 标准化的 Robots Exclusion Protocol。它通过 User-agent 与 Disallow/Allow 指令告诉守规则的爬虫哪些路径可以访问,还可以声明 Sitemap 位置。robots.txt 仅是建议性机制,并非访问控制:恶意爬虫常常忽略它,把敏感路径列出反而成为攻击者的指引。防御方应将其与认证、授权、速率限制和 noindex 标签结合使用,不要用它来隐藏机密 URL。

如何防御 robots.txt?

针对 robots.txt 的防御通常结合技术控制与运营实践,详见上方完整定义。

robots.txt 还有哪些其他名称?

常见的别称包括: 机器人排除协议, RFC 9309。

相关术语