الجمعة 28 مارس 2025
في المنشورات السابقة حول "بروتوكول استبعاد برامج الروبوت" (REP)، تعرّفنا على الإجراءات التي يمكنك حاليًا تنفيذها باستخدام مكوّناته المختلفة، وتحديدًا ملف robots.txt وعناصر التحكّم على مستوى معرّف الموارد المنتظم (URI). أما اليوم، فسنستكشف في هذا المنشور كيف يمكن لبروتوكول REP أداء دور مساعد في العلاقة الدائمة التطور بين البرامج الآلية والويب المخصَّص للمستخدمين.
تم اعتماد بروتوكول REP، وتحديدًا ملف robots.txt، كمعيار باسم RFC9309 في العام 2022.
مع ذلك، حقّق هذا البروتوكول نجاحًا كبيرًا حتى قبل اعتماده كمعيار، إذ أثبت فعاليته بين العامين 1994 و2022، ما أكسبه رواجًا كافيًا ليستخدمه مليارات المضيفين وجميع مشغّلي برامج الزحف الرئيسية تقريبًا (باستثناء برامج الزحف المعادية، مثل أدوات البحث عن البرامج الضارة). يوفّر هذا البروتوكول حلاً مباشرًا ومنظَّمًا للتعبير عن التفضيلات باستخدام بنية بسيطة ومتعدّدة الاستخدامات في الوقت نفسه.
وطوال فترة الـ 25 عامًا من توفّره، لم تكُن هناك حاجة تقريبًا إلى تغيير شكله الأصلي، وإذا أخذنا في الاعتبار القواعد المتوافقة مع مختلَف برامج الزحف، شمل التغيير الوحيد الذي تم إجراؤه على البروتوكول إضافة قاعدة allow
.
هذا لا يعني عدم توفّر قواعد أخرى، إذ يمكن لأي مشغّل لبرنامج زحف ابتكار قواعده الخاصة. على سبيل المثال، لا تشكّل القواعد مثل "clean-param
" و"crawl-delay
" جزءًا من معيار RFC9309، وهي غير متوافقة مع محرّك بحث Google لكنّها متوافقة مع بعض محرّكات البحث.
في حين أنّ القاعدة "sitemap
" متوافقة مع جميع محرّكات البحث الرئيسية مع أنّها أيضًا ليست جزءًا من معيار RFC9309. وفي حال لاقت تأييدًا كافيًا، قد تصبح قاعدة رسمية في بروتوكول REP.
بإمكان بروتوكول REP تلقّي "تحديثات". فهو يُستخدم على نطاق واسع ومن المفترض أن يتطوّر مع تطوّر الإنترنت. ومع أنّه يمكن إجراء تغييرات على REP، فإنّ ذلك ليس عملية سهلة، وذلك بالضبط لأنّه يُستخدم على نطاق واسع. فكما هي الحال مع أي معيار، يجب أن يكون هناك إجماع على أنّ التغييرات ستعود بالفائدة على معظم مستخدمي البروتوكول، سواء من جهة الناشرين أو من جهة مشغّلي برامج الزحف.
إنّ بساطة بروتوكول REP واستخدامه على نطاق واسع يجعلانه خيارًا ممتازًا لإضافة تفضيلات جديدة للزحف، فملف robots.txt وبنيته مألوفان لمليارات الناشرين مثلاً، لذا فإنّ إجراء تغييرات عليه سيكون عملية طبيعية بالنسبة إليهم. من الناحية الأخرى، يستخدم مشغّلو برامج الزحف أدوات تحليل ومطابقة فعّالة خضعت لاختبارات دقيقة (وقد جعلت Google أداة تحليل ملف robots.txt الخاصة بها مفتوحة المصدر)، ما يعني أنّهم لن يواجهوا على الأرجح أي مشاكل مرتبطة بتحليل القواعد الجديدة.
الأمر نفسه ينطبق على إضافات REP على مستوى معرف الموارد المنتظم (URI) وعنوان HTTP الذي يتضمّن X-robots-tag
والعلامة الوصفية المقابلة له. وبالتالي، إذا كانت هناك حاجة إلى إضافة قاعدة جديدة خاصة بتفضيلات الإيقاف، يمكن توسيع هذه القواعد بسهولة، ولكن كيف؟
إذا أردت اقتراح تحديث، فإنّ الإجراء الأهم الذي يمكنك تنفيذه هو طرح الفكرة بشكل علني وجمع مؤيدين لها. وبما أنّ بروتوكول REP هو معيار عام، لا يمكن إجراء تغييرات أحادية الجانب عليه. ومع أنّه يمكن لأي جهة إتاحة استخدام قواعد جديدة من جانبها، لن تصبح تلك القواعد جزءًا من المعيار. مع ذلك، إذا تم الحديث عن ذلك التغيير وتعريف المنظومة المتكاملة (سواء مشغّلي برامج الزحف أو المنظومة المتكاملة للنشر) بالفائدة التي سيعود بها على الجميع، قد يؤدي ذلك إلى حدوث إجماع عليه، ما يمهّد الطريق لتحديث المعيار.
وبالمثل، إذا كان المعيار يفتقر إلى جانب معيّن، ننصحك بالتحدث عن ذلك بشكل علني. فالقاعدة sitemap
استُخدمت على نطاق واسع في robots.txt لأنّها كانت مفيدة بالنسبة إلى صنّاع المحتوى ومحركات البحث على حدّ سواء، ما مهّد الطريق لاعتماد الإضافة الخاصة بها. إذا كان لديك اقتراح حول قاعدة جديدة، اسأل مستخدمي ملف robots.txt وصنّاع المحتوى عن رأيهم بها وناقِش معهم أي مشاكل محتمَلة (ومرجّحة) قد يذكرونها، ثم اكتب اقتراحك.
إذا كان هدفك خدمة المصلحة العامة، يستحق ذلك بذل بعض الجهد.