robots.txt
O que é robots.txt?
robots.txtFicheiro de texto na raiz do site que informa os crawlers bem-comportados sobre que caminhos podem ou nao ir buscar, formalizado pelo RFC 9309 do IETF.
robots.txt e um ficheiro de texto colocado na raiz de um site (por exemplo https://example.com/robots.txt) que usa o Robots Exclusion Protocol normalizado no RFC 9309 do IETF. Contem diretivas User-agent e Disallow/Allow que os crawlers conformes consultam antes de obter URLs e pode anunciar a localizacao do sitemap. robots.txt e apenas um mecanismo informativo, nao um controlo de acesso: bots maliciosos ignoram-no e listar caminhos sensiveis funciona como mapa para atacantes. Os defensores devem combina-lo com autenticacao, autorizacao, rate limiting e tags noindex, e evitar usa-lo para esconder URLs secretas.
● Exemplos
- 01
Entrada Disallow: /admin/ respeitada por crawlers bem-comportados mas usada por atacantes como pista para sondar esse caminho.
- 02
Linha Sitemap: https://example.com/sitemap.xml que ajuda os motores de busca a indexar conteudo publico.
● Perguntas frequentes
O que é robots.txt?
Ficheiro de texto na raiz do site que informa os crawlers bem-comportados sobre que caminhos podem ou nao ir buscar, formalizado pelo RFC 9309 do IETF. Pertence à categoria Segurança de aplicações da cibersegurança.
O que significa robots.txt?
Ficheiro de texto na raiz do site que informa os crawlers bem-comportados sobre que caminhos podem ou nao ir buscar, formalizado pelo RFC 9309 do IETF.
Como funciona robots.txt?
robots.txt e um ficheiro de texto colocado na raiz de um site (por exemplo https://example.com/robots.txt) que usa o Robots Exclusion Protocol normalizado no RFC 9309 do IETF. Contem diretivas User-agent e Disallow/Allow que os crawlers conformes consultam antes de obter URLs e pode anunciar a localizacao do sitemap. robots.txt e apenas um mecanismo informativo, nao um controlo de acesso: bots maliciosos ignoram-no e listar caminhos sensiveis funciona como mapa para atacantes. Os defensores devem combina-lo com autenticacao, autorizacao, rate limiting e tags noindex, e evitar usa-lo para esconder URLs secretas.
Como se defender contra robots.txt?
As defesas contra robots.txt costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para robots.txt?
Nomes alternativos comuns: Protocolo de exclusao de robots, RFC 9309.
● Termos relacionados
- appsec№ 1195
Spoofing de User-Agent
Falsificacao do cabecalho User-Agent ou dos Client Hints associados para que um pedido pareca vir de um navegador, dispositivo ou sistema operativo diferente do real.
- appsec№ 468
Navegador headless
Navegador web executado sem interface grafica e controlado por codigo, usado em testes, scraping e automacao de seguranca.