Robots Refresher: Geleceğe hazır Robot Hariç Tutma Protokolü

28 Mart 2025, Cuma

Robot Hariç Tutma Protokolü (REP) ile ilgili önceki yayınlarda, robots.txt ve URI düzeyindeki kontroller gibi çeşitli bileşenleriyle neler yapabileceğinizi incelemiştik. Bu yayında, REP'nin otomatik istemciler ile gerçek kullanıcıların bulunduğu web arasındaki sürekli gelişen ilişkide nasıl destekleyici bir rol oynayabileceğini inceleyeceğiz.

REP (özellikle de robots.txt), 2022'de RFC9309 olarak standart haline geldi. Ancak en zor işler standartlaştırmadan önce yapılmıştı. 1994 ile 2022 arasında geçen zaman içinde, milyarlarca ana makine ve neredeyse tüm büyük tarayıcı operatörleri (kötü amaçlı yazılım tarayıcıları gibi yanıltıcı tarayıcılar hariç) tarafından benimsenecek kadar popüler hale geldi. Tercihlerinizi basit ancak çok yönlü bir söz dizimiyle ifade edebileceğiniz kolay ve zarif bir çözümdür. Var olduğu 25 yıllık süre boyunca orijinal biçimi çok az değişime uğradı. Yalnızca tarayıcılar tarafından evrensel olarak desteklenen kuralları dikkate alırsak sadece allow kuralı eklendi.

Bu, başka kural olmadığı anlamına gelmez. Her tarayıcı operatörü kendi kurallarını belirleyebilir. Örneğin, "clean-param" ve "crawl-delay" gibi kurallar RFC9309 kapsamında değildir ancak Google Arama hariç bazı arama motorları tarafından desteklenir. Yine RFC9309 kapsamında olmayan "sitemap" kuralı, tüm büyük arama motorları tarafından desteklenir. Yeterli destek alırsa bu kural, REP'de resmi bir kural haline gelebilir.

REP "güncelleme" alabilir. Yaygın olarak desteklenen bir protokoldür ve internetle birlikte büyümeye devam edecektir. Bu protokolde değişiklik yapmak imkansız olmasa da kolay değildir. REP yaygın olarak desteklendiği için zaten değişiklik yapmak kolay olmamalıdır. Bir standartta yapılan her değişiklikte olduğu gibi, değişikliklerin hem yayıncılar hem de tarayıcı operatörleri açısından protokolün kullanıcılarının çoğuna fayda sağladığı konusunda fikir birliği olmalıdır.

Basitliği ve yaygın kullanımı nedeniyle REP, yeni tarama tercihlerini taşımak için mükemmel bir adaydır: Örneğin, milyarlarca yayıncı halihazırda robots.txt ve söz dizimine aşina olduğundan bunlarla ilgili değişiklik yapmak onlar için daha doğaldır. Öte yandan, tarayıcı operatörlerinin zaten hem güçlü hem de iyi test edilmiş ayrıştırıcıları ve eşleştiricileri vardır (Google da kendi robots.txt ayrıştırıcısını açık kaynak olarak yayınlamıştır). Bu nedenle, yeni kurallarla ilgili ayrıştırma sorunları yaşanma olasılığı oldukça düşüktür.

Aynı durum REP URI düzeyindeki uzantılar, X-robots-tag HTTP başlığı ve meta etiket karşılığı için de geçerlidir. Devre dışı bırakma tercihlerini taşımak için yeni bir kurala ihtiyaç olursa bunlar kolayca genişletilebilir. Peki bu nasıl yapılır?

Okuyucu olarak yapabileceğiniz en önemli şey, fikirlerinizi herkese açık bir şekilde konuşmak ve bu fikre destek olan kişiler toplamaktır. REP herkese açık bir standart olduğundan hiçbir gerçek veya tüzel kişi bu standartta tek taraflı olarak değişiklik yapamaz. Elbette kendi taraflarındaki bir yenilikle ilgili destek uygulayabilirler ancak bu, ASIL standart haline gelmez. Ancak bu değişiklikten bahsetmek ve hem tarayıcı operatörleri hem de yayıncılardan oluşan ekosisteme bu değişikliğin herkese fayda sağlayacağını göstermek, fikir birliğine varılmasını sağlar ve standardın güncellenmesine zemin hazırlar.

Benzer şekilde, protokolde eksik bir şey varsa bunu herkese açık olarak konuşun. sitemap hem içerik üreticiler hem de arama motorları için faydalı olduğundan robots.txt'te yaygın olarak desteklenen bir kural haline geldi ve uzantının kullanılmasına zemin hazırladı. Kurallarla ilgili yeni bir fikriniz varsa robots.txt'yi kullananlara ve içerik üreticilere bu konuda ne düşündüklerini sorun. Onlarla birlikte çalışarak belirttikleri olası sorunları ele alıp bir öneri yazın.

Motivasyon kaynağınız ortak menfaate hizmet etmekse bunu yaptığınıza değecektir.


Robots Refresher serisinin diğer bölümlerine göz atın: