فایل Robots.txt چیست

فایل Robots.txt چیست

فایل Robots.txt یک فایل متنی ساده است که در پوشه ی اصلی (root directory) یک وب سایت قرار داده می شود تا با خزنده های وب یا ربات ها ارتباط برقرار کند. به عنوان مثال: yourwebsite.com/robots.txt. این فایل شامل دستوراتی است که معمولاً به آن ها «قوانین» گفته می شود و مشخص می کند ربات ها به کدام بخش های وب سایت اجازه ی دسترسی دارند.

این فایل یکی از عناصر بنیادی در «پروتکل حذف ربات ها» (Robots Exclusion Protocol) است، استانداردی که برای مدیریت فعالیت ربات ها در وب سایت ها استفاده می شود. با مشخص کردن دستوراتی مانند «allow» و «disallow»، فایل Robots.txt به صاحبان وب سایت ها کنترل می دهد تا تعیین کنند کدام دایرکتوری ها و صفحات باید توسط ربات ها خزیده شوند. در حالی که فایل robots.txt فعالیت ربات ها را برای کل وب سایت کنترل می کند، تگ meta robots برای کنترل خزیدن در صفحات جداگانه استفاده می شود.

اهمیت Robots.txt برای سئو و مدیریت وب سایت

یک فایل Robots.txt که به درستی پیکربندی شده باشد، مزایای متعددی برای سئو و کارایی وب سایت دارد:

  • مدیریت اولویت های خزیدن: هدایت ربات ها به سمت محتوای ارزشمند و جلوگیری از خزیدن صفحات تکراری یا غیرضروری.
  • بهینه سازی استفاده از نقشه سایت (sitemap): راهنمایی ربات ها به سمت نقشه ی سایت برای ایندکس مؤثر بخش های مهم.
  • صرفه جویی در منابع سرور: کاهش فعالیت های غیرضروری ربات ها و جلوگیری از فشار بیش از حد روی درخواست های HTTP.
  • محافظت از فایل های حساس: جلوگیری از دسترسی ربات ها به فایل های محرمانه یا خصوصی (مانند فایل های TXT غیرعمومی).
  • تقویت استراتژی سئو: بهبود تخصیص بودجه خزیدن (crawl budget) و افزایش قابلیت دیده شدن وب سایت از طریق تمرکز بر بخش های مهم.

نمونه هایی از دستورات robots.txt

در اینجا چند نمونه از robots.txt برای وب سایت www.example.com آورده شده است:
با استفاده از دستورات خاص می توانید کنترل کنید کدام بخش های سایت شما در نتایج جستجوی گوگل نمایش داده شوند و محتوای خود را برای دیده شدن بهتر بهینه سازی کنید. همچنین می توان از دستورهای meta robots برای کنترل نحوه ی خزیدن و ایندکس شدن صفحات خاص استفاده کرد تا در کنار قوانین فایل robots.txt کار کنند.

فرمت پایه robots.txt

User-agent: [نام کاربرعامل]
Disallow: [آدرس URL که نباید خزیده شود]

نمونه در عمل

User-agent: Googlebot
Disallow: /example-subfolder/

این دو خط در کنار هم یک فایل robots.txt کامل را تشکیل می دهند، هرچند که می توان چندین دستور کاربرعامل (user agent) و قانون (disallow، allow، crawl-delay و غیره) را در یک فایل گنجاند.

مسدود کردن تمام خزنده های وب از تمام محتواها

User-agent: *
Disallow: /

استفاده از این ساختار در فایل robots.txt به تمام خزنده های وب می گوید که هیچ صفحه ای از www.example.com (حتی صفحه ی اصلی) را نخزند.

اجازه ی دسترسی به تمام خزنده های وب برای تمام محتواها

User-agent: *
Disallow:

این ساختار به خزنده های وب می گوید که می توانند تمام صفحات www.example.com را بخزند، از جمله صفحه ی اصلی.

مسدود کردن یک خزنده ی خاص از یک پوشه ی مشخص

User-agent: Googlebot
Disallow: /example-subfolder/

این دستور فقط به خزنده ی گوگل (Googlebot) می گوید که هیچ صفحه ای از پوشه ی www.example.com/example-subfolder/ را نخزد.

مسدود کردن یک خزنده ی خاص از یک صفحه ی مشخص:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html


این دستور فقط به خزنده ی بینگ (Bingbot) می گوید که صفحه ی www.example.com/example-subfolder/blocked-page.html را نخزد.

فایل robots.txt چگونه کار می کند

تعامل با خزنده های موتورهای جستجو

فایل robots.txt به عنوان مجموعه ای از دستورالعمل ها برای خزنده های وب (ربات ها) عمل می کند که هنگام بازدید از یک وب سایت، ابتدا به آن مراجعه می کنند. زمانی که یک ربات درخواستی HTTP به وب سایتی ارسال می کند، ابتدا فایل robots.txt را بررسی می کند. این فایل به موتورهای جستجو می گوید که به کدام بخش های سایت می توانند دسترسی داشته باشند و به کدام نه. این تعامل به کنترل نحوه ی ایندکس شدن محتوا کمک کرده و اطمینان می دهد که ربات ها تنها روی بخش های مرتبط تمرکز کنند.

موارد استفاده در سئو و مدیریت سایت

فایل robots.txt چندین کاربرد عملی در مدیریت وب سایت و بهینه سازی عملکرد سئو دارد:

موارد استفاده در سئو و مدیریت سایت

شناسایی کاربرعامل (User-agent identification)

هر کاربرعامل یک شناسه ی منحصربه فرد دارد که به آن رشته ی کاربرعامل (user-agent string) گفته می شود و می تواند نوع مرورگر یا خزنده را مشخص کند. تشخیص این رشته ها به شما کمک می کند تا فایل robots.txt خود را طوری تنظیم کنید که رفتار ربات های خاص را مدیریت کنید.

جلوگیری از خزیدن غیرضروری

صاحبان وب سایت می توانند از خزیدن و ایندکس شدن محتوای کم ارزش جلوگیری کنند، با مسدود کردن دسترسی ربات ها به دایرکتوری ها یا صفحات خاص.

مدیریت بار سرور

محدود کردن فعالیت ربات ها در وب سایت های بزرگ باعث کاهش فشار روی سرور می شود و تخصیص منابع را کارآمدتر می کند.

تمرکز بر محتوای مهم

هدایت ربات ها به بخش های باارزش مانند نقشه ی سایت XML تضمین می کند که صفحات حیاتی ابتدا ایندکس شوند.

محدود کردن دسترسی به فایل های حساس

از خزیده شدن فایل های HTML محرمانه یا دایرکتوری های غیرعمومی جلوگیری کنید.

نحو و دستورات اصلی در فایل robots.txt

فایل های robots.txt بر پایه ی دستوراتی ساده ساخته می شوند تا دستورالعمل ها را به خزنده های وب منتقل کنند. این دستورات به صاحبان وب سایت اجازه می دهند قوانینی را تعیین کنند که ربات ها باید از آن ها پیروی کنند. پنج اصطلاح اصلی که معمولاً در فایل robots.txt دیده می شود عبارت اند از:

User-agent


مشخص می کند که قانون برای کدام ربات اعمال می شود (مثلاً Googlebot، Bingbot یا همه ی ربات ها). فهرست بیشتر کاربرعامل ها را می توانید در منابع مربوط پیدا کنید.

Disallow

جلوگیری از دسترسی خزنده هایی مانند Googlebot به فایل ها، صفحات یا دایرکتوری های خاص. تنها یک خط «Disallow:» برای هر URL مجاز است.

Allow

قانون Disallow را نادیده می گیرد و اجازه ی دسترسی به یک صفحه یا منبع خاص را می دهد.

Crawl-delay

تعیین می کند که ربات ها با چه فاصله ای به سرور درخواست ارسال کنند. Googlebot این دستور را نادیده می گیرد، اما می توان نرخ خزیدن را در Google Search Console تنظیم کرد.

Sitemap

ربات ها را به محل نقشه ی سایت هدایت می کند تا فرآیند خزیدن و ایندکس مؤثرتر انجام شود. توجه کنید این دستور فقط توسط Google، Ask، Bing و Yahoo پشتیبانی می شود.

نحو و دستورات اصلی در فایل robots.txt


علاوه بر این، ویژگی 'meta name="robots" content=' می تواند برای اختصاص مقادیر مختلفی مانند 'noindex' یا 'nofollow' استفاده شود تا نحوه ی ایندکس و خزیدن صفحات توسط موتورهای جستجو کنترل شود.

نحوه ی ایجاد فایل robots.txt

دستورالعمل گام به گام برای ساخت فایل robots.txt شامل موارد زیر است:

مکان و نام گذاری فایل

  • فایل robots.txt باید در دایرکتوری ریشه ی وب سایت شما قرار گیرد (برای مثال: https://www.example.com/robots.txt).
  • اطمینان حاصل کنید که نام فایل دقیقاً robots.txt باشد تا توسط خزنده ها شناسایی شود.

نوشتن دستورات پایه

  • یک ویرایشگر متن ساده باز کنید.
  • دستورات را با استفاده از کلیدواژه هایی مانند User-agent، Disallow و Allow اضافه کنید.
  • فایل را با نام robots.txt ذخیره کرده و در دایرکتوری ریشه ی وب سایت خود آپلود کنید.

پیاده سازی تگ های متا robots در پلتفرم های وب سایت محبوب


در پلتفرم هایی مانند Wix و WordPress می توانید تگ های متا robots را برای کنترل نحوه ی ایندکس صفحات تنظیم کنید.

  • در WordPress به بخش 'Edit' صفحه یا پست خود بروید و در قسمت 'Advanced' تنظیمات 'noindex' یا 'nofollow' را اضافه کنید.
  • در Wix به تنظیمات 'SEO' صفحه ی مورد نظر رفته و در بخش 'Advanced SEO' تگ های متا robots را پیکربندی کنید.

می توانید فایل خود را با ابزارهایی مانند Google’s robots.txt Tester یا Robots.txt Parser آزمایش کنید. برای تولید خودکار فایل robots.txt، از ابزارهایی مانند Yoast's robots.txt generator که قالب های آماده دارند استفاده کنید.

بهترین روش ها برای فایل robots.txt

برای اطمینان از عملکرد بهینه ی فایل robots.txt، از این روش ها پیروی کنید:

مشکلات مکان فایل

فایل را در دایرکتوری ریشه قرار دهید (مثلاً www.example.com/robots.txt).

اطمینان از صحت نحو (syntax)

فرمت فایل را با ابزارهایی مانند Google’s Robots Testing Tool بررسی کنید تا از بروز خطا جلوگیری شود.

مسدود نکردن CSS یا JavaScript

به منابعی که برای رندر صحیح صفحات ضروری اند اجازه ی دسترسی بدهید.

استفاده از دستور sitemap

نقشه ی سایت را لینک دهید تا ربات ها به محتوای مهم تر هدایت شوند.

پایش رفتار خزنده ها

گزارش های سرور یا آنالیتیکس را بررسی کنید تا مطمئن شوید ربات ها از قوانین شما پیروی می کنند.

تگ های متای robots نیز برای مدیریت سئو اهمیت زیادی دارند و از بروز خطاهایی مانند اعمال ناخواسته ی دستور noindex جلوگیری می کنند.

چگونه مشکلات robots.txt را در Moz Pro شناسایی کنیم

فایل robots.txt کنترل می کند که موتورهای جستجو چگونه سایت شما را بخزند. خطاها در این فایل ممکن است باعث شوند صفحات مهم ایندکس نشوند یا به بخش هایی دسترسی پیدا کنند که نباید خزیده شوند. قابلیت On-Demand Crawl در Moz Pro شناسایی و رفع این مشکلات را ساده می کند.

گام ۱: اجرای On-Demand Crawl


در داشبورد Moz Pro خود، به بخش On-Demand Crawl بروید و زیر دامنه یا URL مورد نظر برای اسکن را وارد کنید.

چگونه مشکلات robots.txt را در Moz Pro شناسایی کنیم

پس از اتمام خزیدن، گزارشی کامل از مشکلات فنی سئو دریافت خواهید کرد، از جمله موارد مرتبط با دستورات robots.txt.

گام ۲: بررسی مشکلات بحرانی خزیدن

در گزارش Crawl، زیر بخش All Issues هشدارهایی مانند X-Robots Noindex و Meta Noindex را مشاهده کنید.

نمای کلی از تمام مشکلات robots.txt


گام ۳: فیلتر کردن مشکلات مرتبط با robots.txt

در بخش Pages Crawled، از منوی Issue Types برای فیلتر کردن Meta Noindex و X-Robots Noindex استفاده کنید. این کار تمام صفحات تحت تأثیر را نمایش می دهد همراه با شاخص هایی مانند عمق خزیدن و اعتبار صفحه.

مشکلات robots.txt

گام ۴: بررسی و رفع خطاها

پس از شناسایی URLهای تحت تأثیر:

 

  • فایل robots.txt خود را در yourdomain.com/robots.txt بررسی کنید تا قوانین را مرور کنید.
  • اطمینان حاصل کنید که صفحات مهم به طور ناخواسته مسدود نشده باشند.
  • دستورات Disallow یا Allow را در صورت نیاز تنظیم کنید.
  • پیکربندی های CMS یا تنظیمات سرور را برای صفحاتی که از طریق متا تگ ها یا هدرهای HTTP (مانند X-Robots-Tag) مسدود شده اند بررسی کنید.

گام ۵: اجرای مجدد خزیدن برای تأیید اصلاحات

پس از به روزرسانی فایل robots.txt یا دستورات متا، خزیدن را دوباره در Moz Pro اجرا کنید. در گزارش بعدی باید مشاهده کنید که مشکلات برطرف یا کاهش یافته اند. پایش مداوم به اطمینان از دسترسی و ایندکس صحیح صفحات توسط موتورهای جستجو کمک می کند.

اشتباهات رایج برای جلوگیری

فایل های robots.txt ساده هستند اما مستعد اشتباهاتی که می تواند به دیدپذیری یا عملکرد سایت آسیب بزند:

اشتباهات رایجی که فایل robots.txt را خراب می کنند

فرمت نادرست فایل

آن را به صورت فایل متنی ساده با رمزگذاری UTF-8 ذخیره کنید تا قابل خواندن باشد.

قوانین بیش از حد محدودکننده

از مسدود کردن دایرکتوری ها یا صفحاتی که برای سئو ضروری اند خودداری کنید.

نادیده گرفتن آزمایش فایل

به طور منظم فایل robots.txt خود را با ابزارهایی مانند تستر Google آزمایش کنید تا از عملکرد صحیح مطمئن شوید.

نادیده گرفتن تفاوت خزنده ها

قوانین را بر اساس رفتار کاربرعامل های خاص تنظیم کنید.

به روزرسانی نکردن

با تغییر ساختار وب سایت، فایل robots.txt را بازبینی و اصلاح کنید.

آیا می توان با robots.txt ربات های هوش مصنوعی را مسدود کرد

بله، robots.txt می تواند برای مسدود کردن ربات های هوش مصنوعی مانند ClaudeBot، GPTbot و PerplexityBot استفاده شود. بسیاری از وب سایت های خبری و انتشاراتی از قبل این ربات ها را مسدود کرده اند. برای مثال، تحقیقات تام کپر (Tom Capper)، دانشمند ارشد جستجوی Moz نشان می دهد که GPTbot بیشترین میزان مسدودشدن را دارد. با این حال، اینکه مسدود کردن ربات های هوش مصنوعی تصمیم درستی برای سایت شماست و آیا همه ی این ربات ها واقعاً از این دستور پیروی می کنند، هنوز در حال بررسی و بحث است.

نحوه ی مسدود کردن ربات های هوش مصنوعی با robots.txt:

برای مسدود کردن ربات های هوش مصنوعی، کاربرعامل آن ها را وارد کرده و مسیرهایی که می خواهید مستثنی شوند را مشخص کنید. برای مثال:

User-agent: GPTbot
Disallow: /blog
Disallow: /learn/seo
نحوه ی مسدود کردن ربات های هوش مصنوعی

پرسش های متداول

چگونه بررسی کنم که فایل robots.txt دارم یا نه؟

برای بررسی وجود فایل robots.txt در سایت خود، دامنه ی اصلی را وارد کرده و در انتهای آن /robots.txt اضافه کنید. برای مثال:
www.example.com/robots.txt
اگر فایلی نمایش داده نشود، سایت شما فایل robots.txt فعال ندارد.

آیا robots.txt الزام قانونی دارد؟

خیر، robots.txt الزام قانونی ندارد. این فایل بر اساس پروتکل داوطلبانه کار می کند، به این معنا که ربات های خوش رفتار (مانند خزنده های موتور جستجو) از دستورات آن پیروی می کنند، اما ربات های مخرب یا جمع آورندگان داده ممکن است آن را نادیده بگیرند.

آیا robots.txt هنوز برای نتایج جستجو مرتبط است؟

بله، robots.txt همچنان ابزاری مؤثر برای مدیریت دسترسی ربات ها و اولویت بندی خزیدن بخش های حیاتی وب سایت است.

تفاوت بین robots.txt، meta robots tag و X-Robots-Tag چیست؟

robots.txt فایلی متنی است که رفتار خزیدن را برای کل سایت یا دایرکتوری مشخص می کند. meta robots و X-Robots تگ های متایی هستند که برای کنترل ایندکس سازی صفحات یا عناصر خاص به کار می روند.

 

منبع Moz

۱۸
۱۴۰۴/۸/۷