शुक्रवार, 28 मार्च, 2025
पिछली पोस्ट में हमने रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी) के बारे में बात की थी. हमने बताया था कि इसके अलग-अलग कॉम्पोनेंट, जैसे कि robots.txt और यूआरआई लेवल कंट्रोल के ज़रिए क्या किया जा सकता है. इस पोस्ट में हम जानेंगे कि ऑटोमेटेड क्लाइंट और मानव वेब के बीच लगातार बदलते संबंध में, आरईपी कैसे मददगार भूमिका निभा सकता है.
आरईपी, खास तौर पर robots.txt, 2022 में RFC9309 के तौर पर स्टैंडर्ड बन गया.
हालांकि, इसे स्टैंडर्ड बनाने से पहले ही ज़्यादातर काम कर लिया गया था: साल 1994 से 2022 के बीच, इसे इतना लोकप्रिय बनाया गया कि इसे अरबों होस्ट और ज़्यादातर बड़े क्रॉलर ऑपरेटर (मैलवेयर स्कैनर जैसे विरोधी क्रॉलर को छोड़कर) ने अपना लिया. यह एक ऐसा आसान और बेहतरीन तरीका है जिसकी मदद से अपनी प्राथमिकताएं बताई जा सकती हैं. इसके लिए, सिंटैक्स का इस्तेमाल किया जाता है. यह सिंटैक्स इस्तेमाल करने में आसान और कई खूबियों वाला होता है.
पिछले 25 सालों में, इसे अपने ओरिजनल फ़ॉर्म से बहुत कम बदलाव करना पड़ा. अगर हम सिर्फ़ उन नियमों को ध्यान में रखें जो क्रॉलर के साथ काम करते हैं, तो इसे सिर्फ़ एक allow
नियम मिला है.
इसका मतलब यह नहीं है कि कोई और नियम मौजूद नहीं हैं. कोई भी क्रॉलर ऑपरेटर अपने हिसाब से नियम बना सकता है. उदाहरण के लिए, "clean-param
" और "crawl-delay
" जैसे नियम,
RFC9309 का हिस्सा नहीं हैं. इसके बजाय, कुछ सर्च इंजन इन नियमों का इस्तेमाल करते हैं. हालांकि, Google Search ऐसा नहीं करता.
"sitemap
" नियम भी RFC9309 का हिस्सा नहीं है. हालांकि, यह सभी मुख्य सर्च इंजन पर काम करता है. अगर इस सुझाव को ज़रूरत के मुताबिक समर्थन मिलता है, तो इसे आरईपी में आधिकारिक नियम के तौर पर शामिल किया जा सकता है.
ऐसा इसलिए, क्योंकि क्योंकि आरईपी को "अपडेट" हो सकता है. यह प्रोटोकॉल, ज़्यादातर डिवाइसों पर काम करता है. इसलिए, इंटरनेट पर इसकी लोकप्रियता भी बढ़नी चाहिए. इसमें बदलाव किए जा सकते हैं, लेकिन यह मुश्किल काम है. हालांकि, यह काम मुश्किल ही होना चाहिए, क्योंकि आरईपी का इस्तेमाल कई जगहों पर किया जाता है. किसी भी स्टैंडर्ड में किए जाने वाले बदलाव की तरह ही, इस बात पर सहमति होनी चाहिए कि बदलावों से प्रोटोकॉल के ज़्यादातर उपयोगकर्ताओं को फ़ायदा मिले. इनमें पब्लिशर और क्रॉलर ऑपरेटर, दोनों शामिल हैं.
आरईपी को आसानी से इस्तेमाल किया जा सकता है और इसे कई जगहों पर इस्तेमाल किया जाता है. इसलिए, यह क्रॉल करने से जुड़ी नई प्राथमिकताओं को लागू करने के लिए एक बेहतरीन विकल्प है: उदाहरण के लिए, अरबों पब्लिशर पहले से ही robots.txt और उसके सिंटैक्स के बारे में जानते हैं. इसलिए, वे इसमें आसानी से बदलाव कर सकते हैं. इसके अलावा, क्रॉलर ऑपरेटर के पास पहले से ही बेहतर और अच्छी तरह से जांचे गए पार्सर और मैचर मौजूद हैं. साथ ही, Google ने अपना robots.txt पार्सर भी ओपन सोर्स किया है. इसका मतलब है कि नए नियमों के साथ, पार्स करने से जुड़ी समस्याएं होने की संभावना बहुत कम है.
यह बात आरईपी यूआरआई लेवल एक्सटेंशन, X-robots-tag
एचटीटीपी हेडर, और उसके मेटा टैग पर भी लागू होती है. अगर ऑप्ट-आउट की प्राथमिकताओं को लागू करने के लिए नए नियम की ज़रूरत होती है, तो उन्हें आसानी से लागू किया जा सकता है. कैसे?
सबसे ज़रूरी बात यह है कि आप अपने आइडिया के बारे में सार्वजनिक तौर पर बात करें और उस आइडिया के लिए समर्थकों को इकट्ठा करें. आरईपी एक सार्वजनिक स्टैंडर्ड है. इसलिए, किसी भी इकाई की वजह से इसमें एकतरफ़ा बदलाव नहीं किया जा सकता. हालांकि, उससे किसी नई चीज़ को लागू करने में मदद मिले, लेकिन वह कोई स्टैंडर्ड नहीं बन सकती. हालांकि, इस बदलाव के बारे में बात करके और क्रॉलर ऑपरेटर और पब्लिश करने से जुड़े लोगों, दोनों को यह बताकर कि इससे सभी को फ़ायदा होगा, सहमति हासिल की जा सकती है. इससे स्टैंडर्ड को अपडेट करने का रास्ता खुलता है.
इसी तरह, अगर प्रोटोकॉल में कुछ कमी है, तो इस बारे में सार्वजनिक तौर पर बात करें. sitemap
robots.txt में एक ऐसा नियम बन गया है जिसे ज़्यादातर लोग इस्तेमाल करते हैं. ऐसा इसलिए हुआ, क्योंकि यह कॉन्टेंट क्रिएटर्स और सर्च इंजन, दोनों के लिए फ़ायदेमंद है. इस वजह से, इस एक्सटेंशन को अपनाने में आसानी हुई. अगर आपके पास किसी नियम के लिए कोई नया आइडिया है, तो robots.txt का इस्तेमाल करने वाले लोगों और क्रिएटर्स से पूछें कि वे इसके बारे में क्या सोचते हैं. साथ ही, उनकी बताई गई संभावित समस्याओं को हल करने के लिए, उनके साथ मिलकर काम करें. इसके बाद, एक प्रस्ताव लिखें.
लोगों की भलाई के लिए काम करना अच्छी बात है.