آموزش ساخت فایل robots.txt برای کنترل خزنده‌ها

تاریخ: 1404/6/27 ساعت: 15:44 بازدید: 4

robots.txt چیست و چرا اهمیت دارد؟

فایل robots.txt یک فایل متنی ساده است که در ریشه اصلی وب سایت شما قرار می گیرد. این فایل به خزنده های وب (مانند ربات های گوگل، بینگ و ...) دستورالعمل هایی ارائه می دهد که مشخص می کند کدام بخش های سایت شما نباید ایندکس شوند. به عبارت دیگر، شما می توانید با استفاده از robots.txt به موتورهای جستجو بگویید که کدام صفحات یا پوشه ها را بررسی نکنند.

اهمیت این فایل در بهینه سازی سئو (SEO) وب سایت شما نهفته است. با جلوگیری از ایندکس شدن صفحات غیرضروری (مانند صفحات لاگین، صفحات پرداخت، فایل های مدیریتی و ...) می توانید بودجه خزش (crawl budget) سایت خود را بهینه کرده و اطمینان حاصل کنید که موتورهای جستجو بر روی محتوای اصلی و ارزشمند سایت شما تمرکز می کنند. این امر می تواند به بهبود رتبه سایت شما در نتایج جستجو کمک کند.

نحوه ایجاد و ساخت فایل robots.txt

ایجاد فایل robots.txt بسیار ساده است. کافی است یک فایل متنی با پسوند .txt ایجاد کرده و دستورالعمل های مورد نظر خود را در آن وارد کنید. سپس، این فایل را در ریشه اصلی وب سایت خود (جایی که فایل index.html شما قرار دارد) آپلود کنید.

در زیر، ساختار کلی یک فایل robots.txt را مشاهده می کنید:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
        

در این مثال:

  • User-agent: * به این معنی است که این دستورالعمل ها برای تمام خزنده های وب اعمال می شود.
  • Disallow: /cgi-bin/ به موتورهای جستجو می گوید که پوشه /cgi-bin/ را ایندکس نکنند.
  • Disallow: /tmp/ به موتورهای جستجو می گوید که پوشه /tmp/ را ایندکس نکنند.
  • Disallow: /private/ به موتورهای جستجو می گوید که پوشه /private/ را ایندکس نکنند.

دستورالعمل های اصلی robots.txt

در فایل robots.txt، دو دستورالعمل اصلی وجود دارد که باید با آن ها آشنا باشید:

User-agent

دستورالعمل User-agent مشخص می کند که این دستورالعمل ها برای کدام خزنده وب اعمال می شود. شما می توانید از * برای اعمال دستورالعمل ها برای تمام خزنده ها استفاده کنید، یا نام خاص یک خزنده (مانند Googlebot برای گوگل، Bingbot برای بینگ و ...) را مشخص کنید.

User-agent: Googlebot
Disallow: /private/
        

در این مثال، دستورالعمل فقط برای خزنده گوگل (Googlebot) اعمال می شود و پوشه /private/ برای گوگل ایندکس نخواهد شد.

Disallow

دستورالعمل Disallow مشخص می کند که کدام صفحات یا پوشه ها نباید توسط خزنده وب ایندکس شوند. شما می توانید یک مسیر خاص (مانند /private/page.html) یا یک پوشه کامل (مانند /private/) را مشخص کنید.

Disallow: /private/page.html
        

در این مثال، فقط صفحه /private/page.html برای خزنده ها غیرقابل دسترس خواهد بود.

Allow (توصیه نمی شود - منسوخ شده است)

دستورالعمل Allow قبلا برای اجازه دادن به خزنده وب برای دسترسی به یک صفحه یا پوشه خاص در داخل یک پوشه Disallow شده استفاده می شد. با این حال، این دستورالعمل دیگر به طور گسترده پشتیبانی نمی شود و استفاده از آن توصیه نمی شود. برای دستیابی به همین نتیجه، می توانید از Disallow با دقت بیشتری استفاده کنید.

Sitemap

دستورالعمل Sitemap برای معرفی نقشه سایت وب سایت به موتورهای جستجو استفاده می شود. با قرار دادن آدرس نقشه سایت در فایل robots.txt، به موتورهای جستجو کمک می کنید تا راحت تر و سریع تر تمام صفحات سایت شما را پیدا و ایندکس کنند.

Sitemap: https://www.example.com/sitemap.xml
        

نکات مهم در استفاده از robots.txt

  • فایل robots.txt را در ریشه اصلی وب سایت خود قرار دهید. این فایل باید در آدرس https://www.example.com/robots.txt قابل دسترس باشد.
  • از دستورالعمل ها به درستی استفاده کنید. اشتباه در دستورالعمل ها می تواند باعث شود که صفحات مهم سایت شما ایندکس نشوند.
  • از متاتگ noindex برای جلوگیری قطعی از ایندکس شدن صفحات استفاده کنید. فایل robots.txt تنها یک دستورالعمل است و خزنده ها ممکن است آن را نادیده بگیرند. برای جلوگیری قطعی از ایندکس شدن یک صفحه، باید از متاتگ <meta name="robots" content="noindex"> در قسمت <head> صفحه استفاده کنید.
  • فایل robots.txt خود را به طور منظم بررسی کنید. با تغییر ساختار سایت خود، ممکن است نیاز به تغییر در فایل robots.txt داشته باشید.
  • مراقب باشید! اگرچه robots.txt برای پنهان کردن صفحات حساس استفاده می شود، اما این روش امنیتی کاملی نیست. هرکسی می تواند محتوای فایل robots.txt را ببیند و آدرس صفحات Disallow شده را پیدا کند. برای امنیت بیشتر، از روش های دیگری مانند رمزگذاری و کنترل دسترسی استفاده کنید.

چگونه فایل robots.txt خود را تست کنیم؟

گوگل ابزاری به نام "Robots.txt Tester" در Google Search Console ارائه می دهد که به شما امکان می دهد فایل robots.txt خود را آزمایش کنید و مطمئن شوید که به درستی پیکربندی شده است. برای استفاده از این ابزار، کافی است وارد Google Search Console شوید، وب سایت خود را انتخاب کنید و سپس به بخش "Coverage" بروید. در این بخش، ابزار "Robots.txt Tester" را پیدا خواهید کرد.

نمونه های کاربردی robots.txt

در زیر، چند نمونه از فایل های robots.txt با تنظیمات مختلف را مشاهده می کنید:

مثال 1: جلوگیری از ایندکس شدن تمام صفحات توسط تمام خزنده ها

User-agent: *
Disallow: /
        

هشدار: استفاده از این تنظیمات باعث می شود که تمام صفحات سایت شما از نتایج جستجو حذف شوند. فقط در صورتی از این تنظیمات استفاده کنید که می خواهید سایت خود را به طور کامل از دسترس موتورهای جستجو خارج کنید.

مثال 2: جلوگیری از ایندکس شدن یک پوشه خاص (مانند پوشه تصاویر)

User-agent: *
Disallow: /images/
        

مثال 3: جلوگیری از ایندکس شدن یک فایل خاص

User-agent: *
Disallow: /private/page.html
        

مثال 4: اجازه دادن به دسترسی به یک فایل خاص در داخل یک پوشه Disallow شده

User-agent: *
Disallow: /private/
Allow: /private/public.html
        

توجه: همانطور که قبلا ذکر شد، دستورالعمل Allow دیگر به طور گسترده پشتیبانی نمی شود. برای دستیابی به همین نتیجه، بهتر است از تنظیمات دقیق تر Disallow استفاده کنید.

مثال 5: معرفی نقشه سایت

User-agent: *
Sitemap: https://www.example.com/sitemap.xml
        

سوالات متداول (FAQ)

فایل robots.txt چیست و چه کاربردی دارد؟

فایل robots.txt یک فایل متنی است که به خزنده های وب (مانند ربات های گوگل) دستورالعمل هایی در مورد اینکه کدام بخش های سایت را نباید ایندکس کنند، ارائه می دهد.

چگونه یک فایل robots.txt ایجاد کنیم؟

می توانید یک فایل متنی ساده با پسوند .txt ایجاد کرده و دستورالعمل های مورد نظر خود را در آن بنویسید. سپس آن را در ریشه اصلی سایت خود آپلود کنید.

آیا فایل robots.txt تضمین می کند که یک صفحه ایندکس نشود؟

خیر، فایل robots.txt تنها یک دستورالعمل است و خزنده ها ممکن است آن را نادیده بگیرند. برای جلوگیری قطعی از ایندکس شدن یک صفحه، باید از متاتگ noindex استفاده کنید.

چه زمانی باید از فایل robots.txt استفاده کنم؟

زمانی که می خواهید از ایندکس شدن صفحات غیرضروری (مانند صفحات لاگین، صفحات پرداخت، فایل های مدیریتی و ...) جلوگیری کنید و بودجه خزش سایت خود را بهینه کنید.

چگونه می توانم فایل robots.txt خود را تست کنم؟

می توانید از ابزار "Robots.txt Tester" در Google Search Console استفاده کنید.

سئوی سایتت رو به ما بسپار!

ساخت و تنظیم فایل robots.txt فقط یک قدم کوچک در دنیای بزرگ بهینه سازی موتورهای جستجو (سئو) است. اگر می خواهید وب سایت شما در نتایج جستجو رتبه بالاتری داشته باشد و ترافیک بیشتری جذب کند، نیاز به یک استراتژی جامع سئو دارید.

تیم متخصص ما با تجربه چندین ساله در زمینه سئو، می تواند به شما کمک کند تا وب سایت خود را به طور کامل بهینه سازی کنید و به اهداف تجاری خود برسید.

برای مشاوره رایگان و کسب اطلاعات بیشتر، با ما تماس بگیرید:

09190994063 - 09376846692