Пятница, 28 марта 2025 г.
В предыдущих статьях о стандарте исключений для роботов (REP) мы рассказывали, что уже можно делать с его компонентами, а именно файлом robots.txt и параметрами уровня URI. Сегодня вы узнаете, какую роль REP может сыграть в поддержании постоянно развивающихся отношений между автоматизированными клиентами и интернетом, с которым работают люди.
REP, а точнее robots.txt, стал стандартом в 2022 г. и получил название RFC9309.
Однако основная часть работы была выполнена до принятия стандарта: c 1994 по 2022 гг. проходило тестирование REP, и он стал настолько популярен, что его начали использовать миллиарды хостов и почти все основные операторы поисковых роботов (за исключением таких роботов, как сканеры вредоносного ПО). Это простое и элегантное решение, которое позволяет декларировать параметры сканирования на языке с простым и удобным синтаксисом.
За 25 лет своего существования REP почти не изменился: если учитывать лишь правила, которые поддерживают все поисковые роботы, то добавлено было только правило allow
.
Это не значит, что других правил нет. Любой оператор поисковых роботов может придумать собственные. Например, такие правила, как clean-param
и crawl-delay
, не входят в стандарт RFC9309, но некоторые поисковые системы их поддерживают, хотя Google Поиск к ним не относится.
Правило sitemap
, которое тоже не входит в стандарт RFC9309, поддерживают почти все основные поисковые системы. При достаточной поддержке оно может стать официальным правилом REP.
Потому что в реальности REP может меняться. Это распространенный протокол, и он должен развиваться вместе с интернетом. Менять его вполне возможно, хоть и непросто – как раз потому, что REP широко поддерживается. Как и с любыми изменениями стандартов, подавляющее большинство пользователей протокола должны признать, что изменение будет полезно как издателям, так и операторам поисковых роботов.
Благодаря своей простоте и широкой распространенности REP – прекрасный кандидат для внедрения новых параметров сканирования: миллиардам издателей уже знаком файл robots.txt и его синтаксис, поэтому для них изменения не будут шокирующими. В то же время у операторов поисковых роботов уже есть надежные и проверенные инструменты для анализа и сопоставления файлов (и компания Google также открыла доступ к своему анализатору файлов robots.txt). Это значит, что новые правила не должны вызвать проблем с синтаксическим анализом.
То же самое касается расширений REP уровня URI, HTTP-заголовка X-robots-tag
и его аналога метатега. Если возникнет необходимость в том, чтобы новое правило включало параметры отказа, их можно без труда расширить. Но как?
Самое важное, что вы, читатель, можете сделать, – это рассказать всем о своей идее и собрать сторонников. Поскольку REP – это публичный стандарт, никто не способен изменять его единолично. Конечно, вы можете внедрить поддержку чего-то нового со своей стороны, но это не станет настоящим стандартом. Но если вы расскажете об изменении и покажете всей экосистеме – как операторам поисковых роботов, так и издателям, – что оно положительно повлияет на всех участников, то может быть достигнут консенсус, и со временем это приведет к изменению стандарта.
Если вам кажется, что у протокола чего-то не хватает, тоже расскажите об этом. Правило sitemap
стало широко поддерживаться в файлах robots.txt, потому что было полезно как авторам контента, так и поисковым системам, что в результате привело к внедрению. Если у вас есть идея правила, спросите пользователей файла robots.txt и авторов, что они думают о нем, и обсудите с ними возможные (и вероятные) проблемы, а потом выдвиньте предложение.
Если инициатива работает на общее благо, значит она того стоит.