Rappels sur les robots : protocole d'exclusion des robots pérenne

Vendredi 28 mars 2025

Dans les articles précédents sur le protocole d'exclusion des robots (REP, Robots Exclusion Protocol), nous avons examiné ce que vous pouvez déjà faire avec ses différents composants, à savoir le fichier robots.txt et les commandes au niveau de l'URI. Dans cet article, nous allons voir comment le REP peut jouer un rôle de soutien dans la relation en constante évolution entre les clients automatiques et le Web humain.

Le REP, en particulier le fichier robots.txt, est devenu une norme en 2022 sous la forme de la norme RFC9309. Cependant, le gros du travail a été effectué avant sa normalisation : c'est l'épreuve du temps entre 1994 et 2022 qui l'a rendu suffisamment populaire pour être adopté par des milliards d'hôtes et pratiquement tous les principaux opérateurs de robots d'exploration (à l'exception des robots d'exploration antagonistes tels que les outils de détection de logiciels malveillants). Il s'agit d'une solution simple et élégante pour exprimer des préférences avec une syntaxe simple mais polyvalente. En 25 ans d'existence, il a à peine évolué par rapport à sa forme d'origine. Il n'a obtenu une règle allow que si nous ne considérons que les règles universellement compatibles avec les robots d'exploration.

Cela ne signifie pas qu'il n'y a pas d'autres règles. Tout opérateur d'exploration peut définir ses propres règles. Par exemple, les règles telles que "clean-param" et "crawl-delay" ne font pas partie de la RFC9309, mais elles sont compatibles avec certains moteurs de recherche, mais pas avec la recherche Google. La règle "sitemap", qui ne fait pas partie de la RFC9309, est compatible avec tous les principaux moteurs de recherche. Si elle est suffisamment populaire, elle pourrait devenir une règle officielle dans le REP.

Le REP peut en effet recevoir des "mises à jour". Il s'agit d'un protocole largement répandu, qui devrait se développer en même temps qu'Internet. Il n'est pas impossible d'y apporter des modifications, mais ce n'est pas facile. Et ce n'est pas censé être facile, précisément parce que le REP est largement pris en charge. Comme pour toute modification d'une norme, il faut s'assurer que les modifications sont bénéfiques pour la majorité des utilisateurs du protocole, tant du côté des éditeurs que de celui des opérateurs de robots d'exploration.

En raison de sa simplicité et de son large déploiement, le REP est un excellent candidat pour transmettre de nouvelles préférences d'exploration : des milliards d'éditeurs connaissent déjà le fichier robots.txt et sa syntaxe, par exemple. Ils peuvent donc le modifier plus facilement. En revanche, les opérateurs de robots d'exploration disposent déjà d'analyseurs et d'outils de mise en correspondance robustes et bien testés (et Google a également partagé son propre analyseur robots.txt en Open Source), ce qui signifie qu'il est très probable qu'il n'y ait pas de problèmes d'analyse avec les nouvelles règles.

Il en va de même pour les extensions au niveau de l'URI du REP, l'en-tête HTTP X-robots-tag et sa balise Meta correspondante. Si on a besoin d'une nouvelle règle pour appliquer les préférences de désactivation, on peut facilement les étendre. Mais comment ?

La chose la plus importante que vous pouvez faire, en tant que lecteur, est de parler de votre idée en public et de trouver des personnes qui la soutiennent. Étant donné que le REP est une norme publique, aucune entité ne peut y apporter de modifications unilatérales. Bien sûr, elle peut implémenter la prise en charge d'une nouvelle fonctionnalité de son côté, mais cela ne deviendra pas LA norme. Cependant, en parlant de ce changement et en montrant à l'écosystème (à la fois aux opérateurs de robots d'exploration et à l'écosystème des éditeurs) qu'il est bénéfique pour tous, nous pourrons obtenir un consensus et ouvrir la voie à la mise à jour de la norme.

De même, s'il manque quelque chose au protocole, parlez-en publiquement. sitemap est devenu une règle largement prise en charge dans robots.txt, car elle était utile pour les créateurs de contenu et les moteurs de recherche. Cela a permis d'adopter l'extension. Si vous avez une idée de nouvelle règle, demandez aux utilisateurs de robots.txt et aux créateurs ce qu'ils en pensent. Travaillez avec eux pour résoudre les problèmes potentiels (et probables) qu'ils soulèvent et rédigez une proposition.

Si votre pilote est destiné au bien commun, cela en vaut la peine.


Découvrez le reste de la série de rappels sur les robots :