ملف Robots.txt كل ما تحتاج إلى معرفته لعام 2020

يعد ملف Robots.txt أحد أبسط الملفات الموجودة على موقع الويب ، ولكنه أيضًا أحد أسهل الملفات في الفوضى.
يمكن أن يتسبب حرف واحد فقط خارج المكان في إحداث فوضى في تحسين محركات البحث لديك
ومنع محركات البحث من الوصول إلى محتوى مهم على موقعك.

هذا هو السبب في أن التكوينات الخاطئة لملف robots.txt شائعة للغاية – حتى بين محترفي تحسين محركات البحث ذوي الخبرة.

ما هو ملف robots.txt؟

يخبر ملف robots.txt محركات البحث بالأماكن التي يمكنهم الوصول إليها على موقعك ولا يمكنهم ذلك.

بشكل أساسي ، يسرد كل المحتوى الذي تريد قفله بعيدًا عن محركات البحث مثل Google.
يمكنك أيضًا إخبار بعض محركات البحث (وليس Google) كيف يمكنها الزحف إلى المحتوى المسموح به.

ملاحظة مهمة

معظم محركات البحث مطيعة. ليس  من عادتها كسر الدخول. ومع ذلك ،
لا يخجل البعض من القيام من ببعض كسر الدخول .

Google ليس واحدًا من محركات البحث هذه. ويطيعون التعليمات الموجودة في ملف robots.txt.

فقط اعلم أن بعض محركات البحث تتجاهلها تمامًا.

كيف يبدو ملف robots.txt؟

إليك التنسيق الأساسي لملف robots.txt:

Sitemap: [URL location of sitemap]

User-agent: [bot identifier]

[directive 1]

[directive 2]

[directive …]

User-agent: [another bot identifier]

[directive 1]

[directive 2]

[directive …]

إذا لم تشاهد أحد هذه الملفات من قبل ، فقد يبدو هذا أمرًا شاقًا. ومع ذلك ، فإن بناء الجملة بسيط للغاية.
باختصار ، تقوم بتعيين قواعد لبرنامج الروبوت عن طريق ذكر وكيل المستخدم الخاص بهم متبوعًا بالتوجيهات.

دعنا نستكشف هذين المكونين بمزيد من التفصيل.

وكلاء مستخدم Robots.txt وتوجيهاته :

يعرّف كل محرك بحث نفسه باستخدام وكيل مستخدم (user-agent)مختلف.
يمكنك تعيين تعليمات مخصصة  في ملف robots.txt الخاص بك. هناك المئات من وكلاء المستخدم ، فيما يلي بعضها :

  • Google: Googlebot
  • Google Images: Googlebot-Image
  • Bing: Bingbot
  • Yahoo: Slurp
  • Baidu: Baiduspider
  • DuckDuckGo: DuckDuckBot

ملاحظة جانبية. جميع وكلاء المستخدم حساسة لحالة الأحرف في ملف robots.txt.

يمكنك أيضًا استخدام حرف  (*) لتعيين توجيهات لجميع وكلاء المستخدم.

على سبيل المثال ، لنفترض أنك تريد حظر جميع برامج التتبع باستثناء Googlebot من الزحف إلى موقعك.
إليك كيفية القيام بذلك:

User-agent: *

Disallow: /

User-agent: Googlebot

Allow: /

اعلم أن ملف robots.txt الخاص بك يمكن أن يتضمن توجيهات للعديد من وكلاء المستخدم كما تريد.
ومع ذلك ، في كل مرة تعلن فيها وكيل مستخدم جديد ، فإنه يعمل بمثابة قائمة نظيفة.
بمعنى آخر ، إذا أضفت توجيهات لوكلاء مستخدم متعددين ،
فإن التعليمات المعلنة لوكيل المستخدم الأول لا تنطبق على الثاني أو الثالث أو الرابع ، وما إلى ذلك.

الاستثناء لهذه القاعدة هو عندما تعلن عن وكيل المستخدم نفسه أكثر من مرة.
في هذه الحالة ، يتم دمج جميع التوجيهات ذات الصلة واتباعها.

ملاحظة مهمة

لا تتبع برامج الزحف إلا القواعد المعلنة بموجب وكيل (وكلاء) المستخدم الذي ينطبق عليها بدقة أكبر.
لهذا السبب يحظر ملف robots.txt أعلاه جميع برامج الروبوت باستثناء Googlebot (وبرامج Google الأخرى) من الزحف إلى الموقع.
يتجاهل Googlebot تصريح وكيل المستخدم الأقل تحديدًا.

التوجيهات

التوجيهات هي القواعد التي تريد أن يتبعها وكلاء user-agents .

التوجيهات المدعومة

إليك التوجيهات التي تدعمها Google حاليًا ، إلى جانب استخداماتها.

  • Disallow

استخدم هذا التوجيه لتوجيه محركات البحث إلى عدم الوصول إلى الملفات والصفحات التي تقع تحت مسار معين.
على سبيل المثال ، إذا أردت منع جميع محركات البحث من الوصول إلى مدونتك وجميع منشوراتها ،
فقد يبدو ملف robots.txt الخاص بك كما يلي:

User-agent: *
Disallow: /blog

ملاحظة جانبية. إذا فشلت في تحديد مسار بعد توجيه عدم السماح ، فسوف تتجاهله محركات البحث.

  • Allow

استخدم هذا التوجيه للسماح لمحركات البحث بالزحف إلى دليل فرعي أو صفحة —
حتى في دليل غير مسموح به بأي شكل آخر.
على سبيل المثال ، إذا كنت تريد منع محركات البحث من الوصول إلى كل مشاركة في مدونتك باستثناء واحدة ،
فقد يبدو ملف robots.txt الخاص بك كما يلي:

User-agent: *
Disallow: /blog
Allow: /blog/allowed-post

في هذا المثال ، يمكن لمحركات البحث الوصول / المدونة / النشر المسموح به. لكن لا يمكنهم الوصول إلى:

/blog/another-post
/blog/yet-another-post
/blog/download-me.pdf

يدعم كل من Google و Bing هذا التوجيه.

ملاحظة جانبية. كما هو الحال مع أمر disallow، إذا فشلت في تحديد مسار بعد قاعدة allow ،
فسوف تتجاهله محركات البحث.

ملاحظات حول قواعد متعارضة:

ما لم تكن حذرًا ، يمكن أن تتعارض الأوامر والسماح بها مع بعضها البعض بسهولة.
في المثال أدناه ، لا نسمح بالوصول إلى / blog / ونسمح بالوصول إلى / blog.

User-agent: *
Disallow: /blog/
Allow: /blog

في هذه الحالة ، يبدو أن عنوان URL / المدونة / عنوان ما بعد / غير مسموح به ومسموح به.
لذا ما الذي يفوز؟

بالنسبة إلى Google و Bing ، فإن القاعدة هي أن التوجيه الذي يحتوي على معظم الأحرف يفوز.
هذا هو توجيه disallow.

Disallow: /blog/ (6 characters)
Allow: /blog (5 charactors)

إذا كانت أوامر السماح وعدم السماح متساوية في الطول ، فإن أقل توجيهات تقييدية يفوز.
في هذه الحالة ، سيكون هذا هو التوجيه المسموح به.

ملاحظة جانبية. هنا ، / blog (بدون الخط المائل) لا يزال يمكن الوصول إليه والزحف إليه.

بشكل حاسم ، هذه هي الحالة فقط لـ Google و Bing.
تستمع محركات البحث الأخرى إلى التوجيه المطابق الأول.
في هذه الحالة ستأخذ التوجيه disallow.

·        Sitemap

استخدم هذا التوجيه لتحديد موقع ملف (ملفات) Sitemap الخاص بك لمحركات البحث.
إذا لم تكن على دراية بملفات sitemap ، فإنها تتضمن بشكل عام الصفحات
التي تريد أن تقوم محركات البحث بالزحف إليها وفهرستها.

في ما يلي مثال لملف robots.txt يستخدم توجيه ملف sitemap:

Sitemap: https://www.domain.com/sitemap.xml
User-agent: *
Disallow: /blog/
Allow: /blog/post-title/
 

ما مدى أهمية تضمين ملف (ملفات) Sitemap في ملف robots.txt الخاص بك؟
إذا كنت قد أرسلت بالفعل من خلال Search Console ، فهذا يعد نوعًا ما لزومًا لـ Google.
ومع ذلك ، فإنه يخبر محركات البحث الأخرى مثل Bing بمكان العثور على خريطة الموقع الخاصة بك ، لذلك لا يزال من الممارسات الجيدة.

لاحظ أنك لا تحتاج إلى تكرار توجيه ملف sitemap عدة مرات لكل وكيل مستخدم.
لا تنطبق على واحد فقط. لذا من الأفضل تضمين أوامر ملف sitemap في بداية ملف robots.txt أو نهايته. فمثلا:

Sitemap: https://www.domain.com/sitemap.xml
User-agent: Googlebot
Disallow: /blog/
Allow: /blog/post-title/
User-agent: Bingbot
Disallow: /services/

تدعم Google توجيه ملف sitemap ، مثلما تفعل Ask و Bing و Yahoo.

ملاحظة جانبية. يمكنك تضمين أي عدد تريده من خرائط المواقع في ملف robots.txt الخاص بك.

توجيهات غير مدعومة

فيما يلي التوجيهات التي لم تعد تدعمها Google – بعضها لم يكن متاحًا من الناحية الفنية أبدًا.

  • Crawl-delay

في السابق ، يمكنك استخدام هذا التوجيه لتحديد تأخير الزحف بالثواني.
على سبيل المثال ، إذا أردت أن ينتظر Googlebot 5 ثوانٍ بعد كل إجراء زحف ، فيمكنك تعيين تأخير الزحف على 5 مثل ذلك:

User-agent: Googlebot
Crawl-delay: 5

لم تعد Google تدعم هذا التوجيه ، ولكن Bing و Yandex يدعمان ذلك.

ومع ذلك ، كن حذرًا عند تعيين هذا التوجيه ، خاصة إذا كان لديك موقع كبير.
إذا عينت تأخيرًا للزحف لمدة 5 ثوانٍ ، فأنت تحدد عدد برامج التتبع للزحف
بحد أقصى 17،280 عنوان URL في اليوم. هذا ليس مفيدًا جدًا إذا كان لديك ملايين الصفحات ،
ولكن يمكن أن يوفر عرض النطاق الترددي إذا كان لديك موقع ويب صغير.

  • Noindex

لم تدعم Google هذا التوجيه رسميًا أبدًا. ومع ذلك ، حتى وقت قريب ،
كان يعتقد أن Google لديها بعض “الشفرة التي تتعامل مع القواعد غير المدعومة وغير المنشورة (مثل noindex)”.
لذا إذا أردت منع Google من فهرسة جميع المشاركات في مدونتك ، فيمكنك استخدام التوجيه التالي:

User-agent: Googlebot
Noindex: /blog/

ومع ذلك ، في 1 سبتمبر 2019 ، أوضحت Google أن هذا الأمر غير مدعوم.
إذا كنت ترغب في استبعاد صفحة أو ملف من محركات البحث ، فاستخدم علامة meta robots
أو رأس HTTP x-robots بدلاً من ذلك.

  • Nofollow

هذا أمر آخر لم تدعمه Google رسميًا مطلقًا ، وقد تم استخدامه لتوجيه محركات البحث
بعدم اتباع الروابط على الصفحات والملفات ضمن مسار معين.
على سبيل المثال ، إذا أردت إيقاف Google عن متابعة جميع الروابط الموجودة في مدونتك ، فيمكنك استخدام التوجيه التالي:

User-agent: Googlebot
Nofollow: /blog/

أعلنت Google أن هذا التوجيه غير مدعوم رسميًا في 1 سبتمبر 2019.
إذا كنت تريد nofollow جميع الروابط الموجودة على الصفحة الآن ،
فيجب عليك استخدام العلامة الوصفية لبرامج الروبوت أو رأس x-robots.
إذا كنت تريد أن تخبر Google بعدم اتباع روابط معينة في الصفحة ، فاستخدم سمة الرابط
 rel = “nofollow”.

هل تحتاج إلى ملف robots.txt؟

لا يعد وجود ملف robots.txt أمرًا حيويًا للعديد من مواقع الويب ، وخاصة المواقع الصغيرة.

ومع ذلك ، ليس هناك سبب وجيه لعدم امتلاك واحد.
يمنحك المزيد من التحكم في الأماكن التي يمكن لمحركات البحث من خلالها الوصول إلى موقعك على الويب
ولا يمكنها ذلك ، ويمكن أن يساعد ذلك في أمور مثل:

  • منع الزحف إلى المحتوى المكرر .
  • الحفاظ على خصوصية أقسام موقع الويب (مثل موقع التدريج الخاص بك) .
  • منع الزحف إلى صفحات نتائج البحث الداخلية .
  • منع التحميل الزائد على الخادم .
  • منع Google من إهدار “ميزانية الزحف“.
  • منع الصور ومقاطع الفيديو وملفات الموارد من الظهور في نتائج بحث Google.

لاحظ أنه بينما لا يفهرس Google عادةً صفحات الويب المحظورة في ملف robots.txt ،
فلا توجد طريقة لضمان الاستبعاد من نتائج البحث باستخدام ملف robots.txt.

كما تقول Google ، إذا تم ربط المحتوى من أماكن أخرى على الويب ،
فقد يستمر في الظهور في نتائج بحث Google.

كيفية العثور على ملف robots.txt الخاص بك؟

إذا كان لديك بالفعل ملف robots.txt على موقع الويب الخاص بك ، فسيكون الوصول إليه متاحًا على domain.com/robots.txt.
انتقل إلى URL في متصفحك. إذا رأيت شيئًا كهذا ، فهذا يعني أن لديك ملف robots.txt:

كيفية إنشاء ملف robots.txt؟

إذا لم يكن لديك بالفعل ملف robots.txt ، فمن السهل إنشاء ملف. ما عليك سوى فتح مستند .txt
فارغ والبدء في كتابة التوجيهات.
على سبيل المثال ، إذا كنت تريد منع جميع محركات البحث من الزحف إلى / admin /مسارك ،
فسيبدو الأمر كالتالي:

User-agent: *
Disallow: /admin/

استمر في بناء التوجيهات حتى تكون راضيًا عما لديك. احفظ ملفك باسم “robots.txt”.

بدلاً من ذلك ، يمكنك أيضًا استخدام مولد robots.txt مثل هذا.

ميزة استخدام أداة مثل هذه هي أنها تقلل من أخطاء بناء الجملة. هذا أمر جيد لأن خطأًا واحدًا
قد يؤدي إلى كارثة SEO لموقعك – لذلك من المفيد أن تخطئ من جانب الحذر.

العيب هو أنها محدودة إلى حد ما من حيث التخصيص.

مكان وضع ملف robots.txt الخاص بك؟

ضع ملف robots.txt في الدليل الجذر للنطاق الفرعي الذي ينطبق عليه. على سبيل المثال ،
للتحكم في سلوك الزحف على domain.com ،
يجب الوصول إلى ملف robots.txt على domain.com/robots.txt.

إذا كنت تريد التحكم في الزحف على نطاق فرعي مثل blog.domain.com ، فيجب الوصول إلى ملف robots.txt على blog.domain.com/robots.txt.

أفضل ممارسات ملف Robots.txt

ضع هذه في الاعتبار لتجنب الأخطاء الشائعة.

·        استخدم سطر جديد لكل توجيه:


يجب أن يكون كل توجيه في سطر جديد والا احتلط الامر على محركات البحث.

سيئة:

User-agent: * Disallow: /directory/ Disallow: /another-directory/

حسن :

User-agent: * 
Disallow: /directory/ 
·       Disallow: /another-directory/

·       استخدم أحرف البدل لتبسيط التعليمات

لا يمكنك فقط استخدام أحرف البدل (*) لتطبيق التوجيهات على جميع وكلاء المستخدم ،
ولكن أيضًا لمطابقة أنماط عناوين URL عند الإعلان عن التوجيهات. على سبيل المثال ،
إذا أردت منع محركات البحث من الوصول إلى عناوين URL لفئات المنتجات ذات المعلمات على موقعك ،
فيمكنك إدراجها على النحو التالي:

User-agent: * 
Disallow: /products/t-shirts?
Disallow: /products/hoodies?
Disallow: /products/jackets?

لكن هذا ليس فعالاً للغاية. سيكون من الأفضل تبسيط الأشياء باستخدام حرف بدل مثل هذا:

User-agent: * 
Disallow: /products/*?

يمنع هذا المثال محركات البحث من الزحف إلى جميع عناوين URL
ضمن المجلد / product / الفرعي الذي يحتوي على علامة استفهام.
بعبارة أخرى ، أي عناوين URL لفئة المنتج ذات معلمات.

·       استخدم “$” لتحديد نهاية عنوان URL

ضمّن الرمز “$” لوضع علامة على نهاية عنوان URL. على سبيل المثال ،
إذا أردت منع محركات البحث من الوصول إلى جميع ملفات .pdf على موقعك ،
فقد يبدو ملف robots.txt الخاص بك كما يلي:

User-agent: * 
Disallow: /*.pdf$

في هذا المثال ، لا يمكن لمحركات البحث الوصول إلى أي عناوين URL تنتهي بـ pdf.
هذا يعني أنه لا يمكنهم الوصول إلى /file.pdf ، ولكن يمكنهم الوصول إلى /file.pdf؟id=68937586 لأن هذا لا ينتهي بـ “.pdf”.

·       استخدم كل user-agentمرة واحدة فقط

إذا حددت وكيل المستخدم نفسه عدة مرات ، فلا تمانع Google.
سيجمع فقط جميع القواعد من الإعلانات المختلفة في قانون واحد ويتبعها جميعًا.
على سبيل المثال ، إذا كان لديك وكلاء المستخدم والتوجيهات التالية في ملف robots.txt …

User-agent: Googlebot
Disallow: /a/
User-agent: Googlebot 
Disallow: /b/

لن يقوم Googlebot بالزحف إلى أي من هذين المجلدين الفرعيين.

ومع ذلك ، من المنطقي الإعلان عن كل وكيل مستخدم مرة واحدة فقط لأنه أقل إرباكًا.
بعبارة أخرى ، من غير المحتمل أن ترتكب أخطاء فادحة من خلال الحفاظ على الأمور منظمة وبسيطة.

·       استخدم التحديد لتجنب الأخطاء غير المقصودة

يمكن أن يؤدي الفشل في تقديم تعليمات محددة عند وضع التوجيهات إلى أخطاء يمكن تفويتها بسهولة
والتي يمكن أن يكون لها تأثير كارثي على seo.
على سبيل المثال ، لنفترض أن لديك موقع متعدد اللغات ،
وأنك تعمل على إصدار ألماني سيكون متاحًا تحت / de / دليل فرعي.

لأنه ليس جاهزًا تمامًا للذهاب ، فأنت تريد منع محركات البحث من الوصول إليه.

سيمنع ملف robots.txt أدناه محركات البحث من الوصول إلى هذا المجلد الفرعي وكل شيء فيه:

User-agent: *
Disallow: /de

ولكنه سيمنع أيضًا محركات البحث من الزحف إلى أي صفحات أو ملفات تبدأ بـ / de.

مثال على ذلك :

/designer-dresses/
/delivery-information.html
/depeche-mode/t-shirts/
/definitely-not-for-public-viewing.pdf

الحل في هذه الحالة بسيط: أضف سلاش لاحقة.

User-agent: *
·         Disallow: /de/

·       استخدم التعليقات لشرح ملف robots.txt الخاص بك:

تساعد التعليقات في شرح ملف robots.txt للمطورين – وربما حتى نفسك في المستقبل. لتضمين تعليق ، ابدأ السطر بتجزئة (#).

# This instructs Bing not to crawl our site.
User-agent: Bingbot
Disallow: /

يتجاهل الزاحف كل شيء في السطور التي تبدأ بالتجزئة.

يتحكم ملف Robots.txt فقط في سلوك الزحف على النطاق الفرعي الذي تتم استضافته فيه.
إذا كنت تريد التحكم في الزحف على نطاق فرعي مختلف ، فستحتاج إلى ملف robots.txt منفصل.

على سبيل المثال ، إذا كان موقعك الرئيسي موجودًا على domain.com وكانت مدونتك موجودة على blog.domain.com ،
فستحتاج إلى ملفين robots.txt. يجب على المرء أن يذهب في الدليل الجذر للمجال الرئيسي ، والآخر في الدليل الجذر للمدونة.

مثال لملفات robots.txt

فيما يلي بعض الأمثلة عن ملفات robots.txt. هذه هي أساسًا للإلهام ،
ولكن إذا حدث أن تطابق أحد متطلباتك ، فقم بنسخه ولصقه في مستند نصي وحفظه كـ “robots.txt” وتحميله إلى الدليل المناسب.

وصول كامل لكل برامج التتبع:

User-agent: *
Disallow:

ملاحظة جانبية. الفشل في إعلان عنوان URL بعد أن يؤدي التوجيه إلى جعل هذا التوجيه فائضًا.
وبعبارة أخرى ، تتجاهلها محركات البحث. هذا هو السبب في أن أمر عدم السماح
هذا ليس له أي تأثير على الموقع. لا يزال بإمكان محركات البحث الزحف إلى جميع الصفحات والملفات.

لا وصول لأي من برامج التتبع :

User-agent: *
Disallow: /

حظر مجلد فرعي فقط لكل برامج التتبع:

User-agent: *
Disallow: /folder/

حظر مجلد فرعي لكل برامج التتبع باستثناء ملف واحد :

User-agent: *
Disallow: /folder/
Allow: /folder/page.html

حظر ملف واحد لكل برامج التتبع :

User-agent: *
Disallow: /this-is-a-file.pdf

حظر نوع ملف واحد (PDF) لجميع برامج الروبوت:

User-agent: *
Disallow: /*.pdf$

منع جميع عناوين URL ذات المعلمات لـ Googlebot فقط:

User-agent: Googlebot
Disallow: /*?

كيفية تدقيق ملف robots.txt الخاص بك بحثًا عن الأخطاء؟

يمكن أن تنزلق أخطاء ملف robots.txt عبر الشبكة بسهولة إلى حد ما ، لذلك من المفيد مراقبة المشكلات.

لإجراء ذلك ، تحقق بانتظام من المشكلات المتعلقة بملف robots.txt في تقرير “التغطية” في Search Console.
فيما يلي بعض الأخطاء التي قد تراها ، وما تعنيه ، وكيف يمكنك إصلاحها.

هل تحتاج إلى التحقق من الأخطاء المتعلقة بصفحة معينة؟

الصق عنوان URL في أداة فحص عنوان URL من Google في Search Console.
إذا تم حظره بواسطة ملف robots.txt ، فمن المفترض أن ترى شيئًا مثل هذا:

تم حظر عنوان URL المُرسل بواسطة ملف robots.txt

وهذا يعني أن ملف robots.txt محظورًا على الأقل من عناوين URL الموجودة في ملف (ملفات) Sitemap التي تم إرسالها.

إذا قمت بإنشاء ملف sitemap الخاص بك بشكل صحيح واستبعدت الصفحات المتعارف عليها
والتي لم تتم ملاحظتها وإعادة توجيهها ، فيجب ألا يتم حظر أي صفحات مرسلة بواسطة robots.txt.
إذا كانت كذلك ، فتحقق من الصفحات المتأثرة ، ثم اضبط ملف robots.txt وفقًا لذلك لإزالة الحظر لتلك الصفحة.

يمكنك استخدام أداة اختبار ملف robots.txt من Google لمعرفة التوجيه الذي يحظر المحتوى.
فقط كن حذرا عند القيام بذلك. من السهل ارتكاب الأخطاء التي تؤثر على الصفحات والملفات الأخرى.

محظور بواسطة robots.txt

وهذا يعني أن لديك محتوى محظور بواسطة ملف robots.txt غير مفهرس حاليًا في Google.

إذا كان هذا المحتوى مهمًا ويجب فهرسته ، فأزل كتلة الزحف في ملف robots.txt. (يجدر أيضًا التأكد من أن المحتوى غير مفهرس).
إذا قمت بحظر المحتوى في ملف robots.txt بقصد استبعاده من فهرس Google ،
فقم بإزالة كتلة الزحف واستخدم علامة تعريف برامج الروبوت أو رأس x-robots بدلاً من ذلك.
هذه هي الطريقة الوحيدة لضمان استبعاد المحتوى من فهرس Google.

ملاحظة جانبية. تُعد إزالة حظر الزحف عند محاولة استبعاد صفحة من نتائج البحث أمرًا بالغ الأهمية.
تعذّر إجراء ذلك ، ولن ترى Google علامة noindex أو رأس HTTP — لذا ستبقى مفهرسة.

تمت فهرستها ، على الرغم من حظرها بواسطة ملف robots.txt

وهذا يعني أن بعض المحتوى المحظور بواسطة robots.txt لا يزال مفهرسًا في Google.

مرة أخرى ، إذا كنت تحاول استبعاد هذا المحتوى من نتائج بحث Google ،
فإن ملف robots.txt ليس هو الحل الصحيح.
أزل كتلة الزحف واستخدم بدلاً من ذلك علامة meta robots أو رأس HTTP لعلامة x-robots لمنع الفهرسة.

إذا حظرت هذا المحتوى عن طريق الصدفة وأردت الاحتفاظ به في فهرس Google ، فأزل حظر الزحف في ملف robots.txt.
قد يساعد هذا على تحسين رؤية المحتوى في بحث Google.

الأسئلة الشائعة

  • ما الحجم الأقصى لملف robots.txt؟

500 كيلو بايت (تقريبًا).

  • أين ملف robots.txt في WordPress؟

نفس المكان: domain.com/robots.txt.

  • كيف أقوم بتحرير robots.txt في WordPress؟

إما يدويًا ، أو باستخدام أحد ملحقات WordPress SEO الإضافية مثل Yoast التي
تتيح لك تحرير ملف robots.txt من الواجهة الخلفية لـ WordPress.

  • ماذا يحدث إذا منعت الوصول إلى محتوى غير مفهرس في ملف robots.txt؟

لن يرى Google أمر noindex مطلقًا لأنه لا يمكنه الزحف إلى الصفحة.

وأخيرا يمكننا القول أن  ملف Robots.txt بسيط ولكنه قوي. استخدمه بحكمة ،
ويمكن أن يكون له تأثير إيجابي على تحسين محركات البحث. استخدمه بشكل عشوائي ، وستعيش لتندم عليه.