Sexta-feira, 28 de março de 2025
Nas postagens anteriores sobre o protocolo de exclusão de robôs (REP, na sigla em inglês), mostramos o que você já pode fazer com os vários componentes, como o robots.txt e os controles no nível do URI. Neste post, vamos mostrar como o REP pode desempenhar um papel de apoio na relação em constante evolução entre clientes automáticos e a Web humana.
O REP, especificamente robots.txt, se tornou um padrão em 2022 como
RFC9309.
No entanto, o trabalho pesado foi feito antes da padronização. Entre
1994 e 2022, o protocolo passou pelo teste do tempo, ficando conhecido o suficiente para ser adotado por bilhões de hosts e praticamente todos
os principais operadores de rastreamento (exceto rastreadores adversários, como verificadores de malware). É uma
solução simples e elegante para expressar preferências com uma sintaxe simples, mas versátil.
Em 25 anos de existência, o protocolo mal precisou evoluir da forma original, tendo apenas uma
regra allow
, se considerarmos apenas as regras que têm suporte universal de rastreadores.
Ou seja, não há outras regras. Qualquer operador de rastreador pode criar as próprias
regras. Por exemplo, regras como "clean-param
" e "crawl-delay
" não fazem
parte do RFC9309, mas são aceitas por alguns mecanismos de pesquisa, embora não pela Pesquisa Google.
A regra "sitemap
", que não faz parte da RFC9309, é compatível com todos os principais
mecanismos de pesquisa. Com o apoio suficiente, ela pode se tornar uma regra oficial no REP.
que pode receber "atualizações". Esse protocolo é amplamente aceito e deve crescer com a Internet. Não é impossível fazer mudanças nele. No entanto, o processo não é fácil, exatamente porque o REP tem suporte amplo. Como acontece com qualquer mudança em um padrão, é necessário haver um consenso de que as mudanças beneficiam a maioria dos usuários do protocolo, tanto do lado dos publishers quanto dos operadores de rastreamento.
Devido à simplicidade e à ampla adoção, o REP é um excelente candidato para carregar novas preferências de rastreamento: bilhões de publishers já conhecem o robots.txt e a sintaxe dele, então fazer as mudanças é mais natural para eles. Por outro lado, os operadores de rastreamento já têm analisadores e correspondentes robustos e bem testados (e o Google também disponibilizou o próprio analisador robots.txt), o que significa que é muito provável que não haja problemas de análise com novas regras.
O mesmo vale para as extensões no nível do URI do REP, o cabeçalho HTTP X-robots-tag
e a
metatag correspondente. Se for necessário uma nova regra para carregar as preferências de desativação, eles serão
facilmente extensíveis. Mas como?
A coisa mais importante que você pode fazer é falar sobre sua ideia publicamente e reunir apoiadores. Como o REP é um padrão público, nenhuma entidade pode fazer mudanças unilaterais nele. É possível implementar o suporte a algo novo do lado delas, mas isso não vai se tornar o padrão. No entanto, falar sobre a mudança e mostrar ao ecossistema, tanto operadores de rastreadores quanto o ecossistema de publishers, que ela beneficia a todos, vai gerar consenso e pavimentar o caminho para a atualização do padrão.
Da mesma forma, fale publicamente, caso perceba que falta algo no protocolo. sitemap
se tornou uma regra amplamente aceita no robots.txt por ser útil para criadores de conteúdo e mecanismos de pesquisa, o que facilitou a adoção da extensão. Caso você tenha uma nova ideia para uma regra, pergunte aos criadores e consumidores de robots.txt o que eles acham dela e trabalhe com eles para resolver possíveis problemas e elaborar uma proposta.
Se o seu objetivo é servir ao bem comum, vale a pena fazer isso.