Снова о роботах: стандарт исключений для роботов с заделом на будущее

Пятница, 28 марта 2025 г.

В предыдущих статьях о стандарте исключений для роботов (REP) мы рассказывали, что уже можно делать с его компонентами, а именно файлом robots.txt и параметрами уровня URI. Сегодня вы узнаете, какую роль REP может сыграть в поддержании постоянно развивающихся отношений между автоматизированными клиентами и интернетом, с которым работают люди.

REP, а точнее robots.txt, стал стандартом в 2022 г. и получил название RFC9309. Однако основная часть работы была выполнена до принятия стандарта: c 1994 по 2022 гг. проходило тестирование REP, и он стал настолько популярен, что его начали использовать миллиарды хостов и почти все основные операторы поисковых роботов (за исключением таких роботов, как сканеры вредоносного ПО). Это простое и элегантное решение, которое позволяет декларировать параметры сканирования на языке с простым и удобным синтаксисом. За 25 лет своего существования REP почти не изменился: если учитывать лишь правила, которые поддерживают все поисковые роботы, то добавлено было только правило allow.

Это не значит, что других правил нет. Любой оператор поисковых роботов может придумать собственные. Например, такие правила, как clean-param и crawl-delay, не входят в стандарт RFC9309, но некоторые поисковые системы их поддерживают, хотя Google Поиск к ним не относится. Правило sitemap, которое тоже не входит в стандарт RFC9309, поддерживают почти все основные поисковые системы. При достаточной поддержке оно может стать официальным правилом REP.

Потому что в реальности REP может меняться. Это распространенный протокол, и он должен развиваться вместе с интернетом. Менять его вполне возможно, хоть и непросто – как раз потому, что REP широко поддерживается. Как и с любыми изменениями стандартов, подавляющее большинство пользователей протокола должны признать, что изменение будет полезно как издателям, так и операторам поисковых роботов.

Благодаря своей простоте и широкой распространенности REP – прекрасный кандидат для внедрения новых параметров сканирования: миллиардам издателей уже знаком файл robots.txt и его синтаксис, поэтому для них изменения не будут шокирующими. В то же время у операторов поисковых роботов уже есть надежные и проверенные инструменты для анализа и сопоставления файлов (и компания Google также открыла доступ к своему анализатору файлов robots.txt). Это значит, что новые правила не должны вызвать проблем с синтаксическим анализом.

То же самое касается расширений REP уровня URI, HTTP-заголовка X-robots-tag и его аналога метатега. Если возникнет необходимость в том, чтобы новое правило включало параметры отказа, их можно без труда расширить. Но как?

Самое важное, что вы, читатель, можете сделать, – это рассказать всем о своей идее и собрать сторонников. Поскольку REP – это публичный стандарт, никто не способен изменять его единолично. Конечно, вы можете внедрить поддержку чего-то нового со своей стороны, но это не станет настоящим стандартом. Но если вы расскажете об изменении и покажете всей экосистеме – как операторам поисковых роботов, так и издателям, – что оно положительно повлияет на всех участников, то может быть достигнут консенсус, и со временем это приведет к изменению стандарта.

Если вам кажется, что у протокола чего-то не хватает, тоже расскажите об этом. Правило sitemap стало широко поддерживаться в файлах robots.txt, потому что было полезно как авторам контента, так и поисковым системам, что в результате привело к внедрению. Если у вас есть идея правила, спросите пользователей файла robots.txt и авторов, что они думают о нем, и обсудите с ними возможные (и вероятные) проблемы, а потом выдвиньте предложение.

Если инициатива работает на общее благо, значит она того стоит.


Посмотрите другие записи из серии "Снова о роботах":