28 Mart 2025, Cuma
Robot Hariç Tutma Protokolü (REP) ile ilgili önceki yayınlarda, robots.txt ve URI düzeyindeki kontroller gibi çeşitli bileşenleriyle neler yapabileceğinizi incelemiştik. Bu yayında, REP'nin otomatik istemciler ile gerçek kullanıcıların bulunduğu web arasındaki sürekli gelişen ilişkide nasıl destekleyici bir rol oynayabileceğini inceleyeceğiz.
REP (özellikle de robots.txt), 2022'de RFC9309 olarak
standart haline geldi.
Ancak en zor işler standartlaştırmadan önce yapılmıştı. 1994 ile 2022 arasında geçen zaman içinde,
milyarlarca ana makine ve neredeyse tüm büyük tarayıcı operatörleri (kötü amaçlı yazılım tarayıcıları gibi
yanıltıcı tarayıcılar hariç) tarafından benimsenecek kadar popüler hale geldi. Tercihlerinizi
basit ancak çok yönlü bir söz dizimiyle ifade edebileceğiniz kolay ve zarif bir çözümdür.
Var olduğu 25 yıllık süre boyunca orijinal biçimi çok az değişime uğradı. Yalnızca tarayıcılar
tarafından evrensel olarak desteklenen kuralları dikkate alırsak sadece allow
kuralı eklendi.
Bu, başka kural olmadığı anlamına gelmez. Her tarayıcı operatörü kendi kurallarını
belirleyebilir. Örneğin, "clean-param
" ve "crawl-delay
" gibi kurallar RFC9309
kapsamında değildir ancak Google Arama hariç bazı arama motorları tarafından desteklenir.
Yine RFC9309 kapsamında olmayan "sitemap
" kuralı, tüm büyük arama motorları tarafından
desteklenir. Yeterli destek alırsa bu kural, REP'de resmi bir kural haline gelebilir.
REP "güncelleme" alabilir. Yaygın olarak desteklenen bir protokoldür ve internetle birlikte büyümeye devam edecektir. Bu protokolde değişiklik yapmak imkansız olmasa da kolay değildir. REP yaygın olarak desteklendiği için zaten değişiklik yapmak kolay olmamalıdır. Bir standartta yapılan her değişiklikte olduğu gibi, değişikliklerin hem yayıncılar hem de tarayıcı operatörleri açısından protokolün kullanıcılarının çoğuna fayda sağladığı konusunda fikir birliği olmalıdır.
Basitliği ve yaygın kullanımı nedeniyle REP, yeni tarama tercihlerini taşımak için mükemmel bir adaydır: Örneğin, milyarlarca yayıncı halihazırda robots.txt ve söz dizimine aşina olduğundan bunlarla ilgili değişiklik yapmak onlar için daha doğaldır. Öte yandan, tarayıcı operatörlerinin zaten hem güçlü hem de iyi test edilmiş ayrıştırıcıları ve eşleştiricileri vardır (Google da kendi robots.txt ayrıştırıcısını açık kaynak olarak yayınlamıştır). Bu nedenle, yeni kurallarla ilgili ayrıştırma sorunları yaşanma olasılığı oldukça düşüktür.
Aynı durum REP URI düzeyindeki uzantılar, X-robots-tag
HTTP başlığı ve meta etiket karşılığı
için de geçerlidir. Devre dışı bırakma tercihlerini taşımak için yeni bir kurala ihtiyaç olursa bunlar
kolayca genişletilebilir. Peki bu nasıl yapılır?
Okuyucu olarak yapabileceğiniz en önemli şey, fikirlerinizi herkese açık bir şekilde konuşmak ve bu fikre destek olan kişiler toplamaktır. REP herkese açık bir standart olduğundan hiçbir gerçek veya tüzel kişi bu standartta tek taraflı olarak değişiklik yapamaz. Elbette kendi taraflarındaki bir yenilikle ilgili destek uygulayabilirler ancak bu, ASIL standart haline gelmez. Ancak bu değişiklikten bahsetmek ve hem tarayıcı operatörleri hem de yayıncılardan oluşan ekosisteme bu değişikliğin herkese fayda sağlayacağını göstermek, fikir birliğine varılmasını sağlar ve standardın güncellenmesine zemin hazırlar.
Benzer şekilde, protokolde eksik bir şey varsa bunu herkese açık olarak konuşun. sitemap
hem içerik üreticiler hem de arama motorları için faydalı olduğundan robots.txt'te yaygın olarak
desteklenen bir kural haline geldi ve uzantının kullanılmasına zemin hazırladı. Kurallarla ilgili yeni bir fikriniz
varsa robots.txt'yi kullananlara ve içerik üreticilere bu konuda ne düşündüklerini sorun. Onlarla birlikte
çalışarak belirttikleri olası sorunları ele alıp bir öneri yazın.
Motivasyon kaynağınız ortak menfaate hizmet etmekse bunu yaptığınıza değecektir.