در این مقاله میخوانید

محتوای تکراری چیست

محتوای تکراری به محتوایی گفته می شود که در بیش از یک مکان در اینترنت ظاهر می شود. آن "یک مکان" به عنوان موقعیتی با آدرس وب سایت منحصربه فرد (URL) تعریف می شود. بنابراین، اگر همان محتوا در بیش از یک آدرس وب وجود داشته باشد، شما با محتوای تکراری روبه رو هستید.

اگرچه از نظر فنی گوگل آن را جریمه مستقیم در نظر نمی گیرد، اما محتوای تکراری می تواند بر رتبه بندی موتورهای جستجو تأثیر بگذارد. وقتی چندین نسخه از محتوایی که گوگل آن را «از نظر قابل توجه مشابه» می داند در چند مکان مختلف در اینترنت وجود داشته باشد، موتورهای جستجو در تشخیص اینکه کدام نسخه برای یک جستجوی خاص مرتبط تر است دچار مشکل می شوند. علاوه بر این، سایر وب سایت ها ممکن است بدون اجازه محتوای شما را کپی کنند که باعث سردرگمی موتورهای جستجو و تضعیف بک لینک ها می شود.

چرا محتوای تکراری اهمیت دارد؟

برای موتورهای جستجو

محتوای تکراری می تواند سه مشکل اصلی برای موتورهای جستجو ایجاد کند:

آن ها نمی دانند کدام نسخه را باید در فهرست خود بگنجانند یا حذف کنند.
نمی دانند معیارهای لینک (اعتماد، اعتبار، ارزش لینک و غیره) را به کدام صفحه اختصاص دهند یا میان چند نسخه تقسیم کنند.
نمی دانند کدام نسخه را باید در نتایج جستجو رتبه بندی کنند.

استفاده از یک URL canonical (اصلی) می تواند به موتورهای جستجو کمک کند تا نسخه ترجیحی یک صفحه را شناسایی کنند، ارزش لینک را در آن متمرکز کرده و عملکرد سئو را بهبود بخشند.

برای صاحبان وب سایت

وقتی محتوای تکراری وجود دارد، صاحبان وب سایت ممکن است با کاهش رتبه و ترافیک مواجه شوند. این کاهش ها معمولاً از دو مشکل اصلی ناشی می شوند:

برای ارائه بهترین تجربه جستجو، موتورهای جستجو معمولاً چندین نسخه از یک محتوا را نمایش نمی دهند و مجبورند تنها یکی را انتخاب کنند که بهترین نتیجه باشد. این موضوع باعث کاهش نمایش نسخه های دیگر می شود.
ارزش لینک نیز تقسیم می شود، زیرا سایت های دیگر هنگام لینک دادن باید میان نسخه های مختلف انتخاب کنند. در نتیجه، به جای آنکه همه لینک ها به یک صفحه واحد اشاره کنند، میان چند نسخه تقسیم می شوند و این باعث کاهش قدرت رتبه بندی می شود.

نتیجه نهایی؟ یک محتوای خاص به آن سطح از دیده شدن در جستجو دست پیدا نمی کند که می توانست داشته باشد.

تأثیر محتوای تکراری بر سئو چیست؟

محتوای تکراری می تواند تأثیر قابل توجهی بر عملکرد سئوی یک وب سایت داشته باشد. وقتی موتورهای جستجو چندین نسخه از همان محتوا را پیدا می کنند، در تعیین اینکه کدام نسخه مرتبط تر و معتبرتر است دچار مشکل می شوند. این مسئله می تواند به چند شکل تأثیرگذار باشد:

کاهش ارزش لینک ها (Diluted Link Equity): وقتی چند نسخه از یک محتوا وجود داشته باشد، ارزش لینک بین آن ها تقسیم می شود. این یعنی به جای یک صفحه قوی، چند صفحه ضعیف تر دارید که رتبه بندی شما را کاهش می دهد.
کاهش بودجه خزش (Crawl Budget): موتورهای جستجو برای هر وب سایت بودجه خزش محدودی اختصاص می دهند، یعنی تعداد صفحاتی که در یک بازه زمانی مشخص بررسی و ایندکس می کنند. اگر این بودجه صرف صفحات تکراری شود، خزش محتوای جدید کندتر انجام می شود و نمایش آن در نتایج جستجو به تأخیر می افتد.
کاهش رتبه در نتایج جستجو: محتوای تکراری می تواند باعث کاهش رتبه شود چون موتورهای جستجو ممکن است ندانند کدام نسخه را باید در اولویت قرار دهند. در نتیجه، هیچ کدام از نسخه ها رتبه ای را که شایسته آن هستند به دست نمی آورند.

درک این اثرات به صاحبان سایت کمک می کند تا اهمیت شناسایی و رفع محتوای تکراری را برای حفظ عملکرد بهینه سئو درک کنند.

چگونه مشکلات محتوای تکراری ایجاد می شود؟

در اغلب موارد، صاحبان وب سایت ها عمداً محتوای تکراری تولید نمی کنند. اما این بدان معنا نیست که چنین محتوایی وجود ندارد. در واقع طبق برخی برآوردها، تا ۲۹٪ از محتوای وب تکراری است!

در ادامه، به برخی از رایج ترین روش هایی که محتوای تکراری ناخواسته ایجاد می شود نگاهی می اندازیم:

۱. تغییرات URL

پارامترهای URL مانند کدهای ردیابی کلیک یا تحلیل داده ها می توانند باعث ایجاد محتوای تکراری شوند. این مشکل نه تنها به خاطر خود پارامترها، بلکه به خاطر ترتیب آن ها در URL نیز می تواند رخ دهد.

برای مثال:
www.widgets.com/blue-widgets و www.widgets.com/blue-widgets?cat=3&color=blue می توانند دو نسخه از همان صفحه باشند.

همچنین، شناسه های نشست (Session IDs) یکی از دلایل رایج تولید محتوای تکراری هستند. وقتی هر کاربر که به سایت وارد می شود شناسه ای منحصربه فرد دریافت کند که در URL ذخیره شود، برای هر کاربر یک نسخه متفاوت از همان صفحه ایجاد می شود.

نسخه های «قابل چاپ» صفحات نیز می توانند باعث مشکلات محتوای تکراری شوند، وقتی چند نسخه از همان محتوا در نتایج ایندکس شود.

تغییرات URL در آدرسهای وب سایت برای پرینت و معمولی

در نتیجه، توصیه می شود تا حد ممکن از افزودن پارامترها یا نسخه های جایگزین URL خودداری کنید. اغلب اطلاعات اضافی را می توان از طریق اسکریپت ها منتقل کرد.

۲. تفاوت بین HTTP و HTTPS یا WWW و بدون WWW

اگر سایت شما در دو نسخه www.site.com و site.com (با و بدون www) در دسترس باشد و محتوای مشابه در هر دو وجود داشته باشد، شما عملاً نسخه های تکراری از صفحات خود دارید. همین مسئله برای نسخه های http:// و https:// نیز صدق می کند. اگر هر دو نسخه در دسترس و قابل مشاهده برای موتورهای جستجو باشند، مشکل محتوای تکراری به وجود می آید.

۳. محتوای کپی یا Scraped Content

محتوا فقط شامل پست های وبلاگ یا متون تحریری نیست؛ بلکه صفحات اطلاعات محصولات را نیز شامل می شود. سایت هایی که محتوای شما را کپی کرده و در سایت خود منتشر می کنند (Scrapers) یکی از منابع آشنا برای محتوای تکراری هستند. اما برای فروشگاه های اینترنتی، مشکل رایج تر این است که چندین وب سایت یک محصول مشابه را با توضیحات تولیدکننده منتشر می کنند. در این حالت، همان متن در چندین سایت مختلف تکرار می شود.

استفاده از تگ canonical خودارجاع (self-referencing canonical tag) در چنین صفحاتی، به موتورهای جستجو نشان می دهد که این صفحه منبع اصلی و معتبر است و از محتوای شما در برابر Scraperها محافظت می کند و باعث شناسایی درست نسخه اصلی می شود.

چگونه محتوای تکراری را پیدا کنیم

پیدا کردن محتوای تکراری گام اساسی در شناسایی و رفع مشکلات محتوای تکراری است. چند روش برای انجام این کار وجود دارد:

ممیزی سایت (Site Audit)

ممیزی سایت یک تحلیل جامع از عملکرد فنی سئو در یک وب سایت است. با استفاده از ابزارهایی مانند Ahrefs’ Site Audit یا Semrush’s Site Audit، می توانید مشکلات مربوط به محتوای تکراری را شناسایی کنید، از جمله:

محتوای تکراری بین صفحات: این ابزارها می توانند وب سایت شما را اسکن کرده و صفحاتی را که محتوای یکسان یا بسیار مشابه دارند شناسایی کنند.
عناوین و توضیحات متای تکراری: آن ها همچنین صفحاتی را که دارای عنوان یا توضیحات متای یکسان هستند پیدا می کنند، که از نشانه های رایج محتوای تکراری است.
محتوای تکراری در چندین URL: ممیزی سایت نشان می دهد آیا محتوای مشابه از طریق چند آدرس مختلف در دسترس است یا خیر، که به شما کمک می کند متوجه شوید کجا باید از canonicalization یا redirect استفاده کنید.

صفحات ایندکس شده (Indexed Pages)

بررسی صفحات ایندکس شده در Google Search Console نیز می تواند به شناسایی محتوای تکراری کمک کند. با تحلیل تعداد صفحات ایندکس شده و نوع آن ها، می توانید مشکلات احتمالی را تشخیص دهید. برای انجام این کار:

گزارش Coverage را بررسی کنید: این گزارش نشان می دهد چه صفحاتی توسط گوگل ایندکس شده اند و چه مشکلاتی در این فرایند وجود دارد. به دنبال صفحاتی بگردید که نباید ایندکس شوند یا نسخه های متعددی از یک صفحه را دارند.
بررسی URLها: با استفاده از ابزار URL Inspection می توانید هر صفحه را جداگانه بررسی کنید تا ببینید گوگل چند نسخه از همان محتوا را ایندکس کرده است.

با ممیزی منظم سایت و نظارت بر صفحات ایندکس شده، می توانید به سرعت مشکلات محتوای تکراری را شناسایی و رفع کنید تا وب سایت شما برای موتورهای جستجو بهینه باقی بماند.

چگونه مشکلات محتوای تکراری را برطرف کنیم

رفع مشکلات محتوای تکراری در نهایت به یک اصل کلی خلاصه می شود: مشخص کردن اینکه کدام نسخه از محتوا نسخه "درست" است.

هر زمان که یک محتوا از طریق چند URL قابل دسترسی باشد، باید برای موتورهای جستجو canonicalized شود. سه روش اصلی برای انجام این کار وجود دارد: استفاده از ریدایرکت 301، صفت rel=canonical یا استفاده از ابزار Parameter Handling در Google Search Console.

ریدایرکت 301 (301 Redirect)

در بسیاری از موارد، بهترین راه برای مقابله با محتوای تکراری، تنظیم ریدایرکت 301 از صفحه تکراری به صفحه اصلی است.

وقتی چندین صفحه با پتانسیل رتبه گیری خوب در یک صفحه ادغام می شوند، دیگر با یکدیگر رقابت نمی کنند، بلکه سیگنال قوی تری از ارتباط و محبوبیت کلی ایجاد می کنند. این کار تأثیر مثبتی بر توانایی صفحه "درست" برای کسب رتبه بهتر دارد.

استفاده از rel="canonical"

روش دیگر برای مدیریت محتوای تکراری استفاده از صفت rel=canonical است. این صفت به موتورهای جستجو اعلام می کند که یک صفحه باید به عنوان نسخه ای از URL مشخصی در نظر گرفته شود و تمام لینک ها، معیارهای محتوا و قدرت رتبه بندی آن به صفحه اصلی منتقل گردد.

این صفت بخشی از تگ head در HTML صفحه وب است و به شکل زیر نوشته می شود:

فرمت کلی:

<head>
...[other code that might be in your document's HTML head]...
<link href="URL OF ORIGINAL PAGE" rel="canonical" />
...[other code that might be in your document's HTML head]...
</head>

صفت rel=canonical باید در بخش head هر نسخه تکراری از صفحه اضافه شود، با این تفاوت که قسمت "URL OF ORIGINAL PAGE" باید با لینک صفحه اصلی جایگزین گردد. (حتماً علامت نقل قول ها را نگه دارید.)

این ویژگی تقریباً همان مقدار link equity (قدرت رتبه بندی) را مانند یک ریدایرکت 301 منتقل می کند و از آن جا که در سطح صفحه (نه سرور) پیاده سازی می شود، معمولاً زمان توسعه ی کمتری نیاز دارد.

در زیر نمونه ای از نحوه استفاده از صفت canonical آورده شده است:

با استفاده از ابزار MozBar برای شناسایی صفت canonical.

در اینجا مشاهده می کنیم که BuzzFeed از صفت rel=canonical برای مدیریت پارامترهای URL خود (در این مثال، ردیابی کلیک) استفاده کرده است. اگرچه این صفحه از طریق دو URL قابل دسترسی است، اما صفت canonical تضمین می کند که تمام ارزش لینک ها و معیارهای محتوا به صفحه اصلی (/no-one-does-this-anymore) اختصاص یابد.

متا ربات ها (Meta robots noindex)

یکی از تگ های متا که می تواند در برخورد با محتوای تکراری بسیار مفید باشد، تگ متا ربات ها است، زمانی که با مقادیر "noindex, follow" استفاده شود. این تگ که معمولاً Meta Noindex,Follow نامیده می شود و از نظر فنی با عبارت content="noindex,follow" شناخته می شود، می تواند به بخش <head> از HTML هر صفحه ای که نباید در فهرست موتور جستجو قرار گیرد اضافه شود.

فرمت کلی:

<head>...[other code that might be in your document's HTML head]...
<meta name="robots" content="noindex,follow">
...[other code that might be in your document's HTML head]...</head>

تگ متا ربات ها به موتورهای جستجو اجازه می دهد پیوندهای موجود در صفحه را بخزند، اما مانع از آن می شود که این صفحه در فهرست آنها ثبت شود.
نکته مهم این است که صفحه تکراری همچنان باید قابل خزیدن (crawl) باشد، حتی اگر به گوگل گفته اید آن را ایندکس نکند، زیرا گوگل صراحتاً هشدار داده که نباید دسترسی خزنده ها را به محتوای تکراری محدود کنید.
(موتورهای جستجو دوست دارند بتوانند همه چیز را ببینند، در صورتی که اشتباهی در کد شما وجود داشته باشد، این موضوع به آن ها اجازه می دهد تصمیمی خودکار در موقعیت های مبهم بگیرند.)

استفاده از تگ متا ربات ها به ویژه برای مشکلات محتوای تکراری مربوط به صفحه بندی (pagination) راه حل خوبی است.

دامنه ترجیحی و مدیریت پارامترها در Google Search Console

Google Search Console به شما اجازه می دهد دامنه ترجیحی سایت خود را مشخص کنید (مثلاً http://yoursite.com به جای http://www.yoursite.com) و تعیین کنید که آیا Googlebot باید پارامترهای مختلف URL را به شکل متفاوتی بخزد یا خیر (مدیریت پارامترها).

بسته به ساختار URL شما و علت محتوای تکراری، تنظیم دامنه ترجیحی یا مدیریت پارامترها (یا هر دو) ممکن است راه حل مناسبی ارائه دهد.

عیب اصلی استفاده از مدیریت پارامترها به عنوان روش اصلی برای برخورد با محتوای تکراری این است که تغییراتی که در Google Search Console انجام می دهید فقط برای گوگل اعمال می شوند.
این تنظیمات بر نحوه تفسیر سایت شما توسط بینگ یا سایر موتورهای جستجو تأثیری نخواهند داشت؛ بنابراین باید تنظیمات مشابهی را در ابزارهای وبمستر سایر موتورهای جستجو نیز انجام دهید.

روش های اضافی برای برخورد با محتوای تکراری

هنگام لینک دهی داخلی در سراسر وب سایت، سازگاری را حفظ کنید.
برای مثال، اگر وب مستر تشخیص دهد نسخه ی کنونیکال دامنه، www.example.com است، تمام لینک های داخلی باید به http://www.example.com/... بروند، نه http://example.com/... (توجه کنید که “www” حذف نشده است).
هنگام سندیکا کردن محتوا (syndicating content)، مطمئن شوید وب سایت منتشرکننده، به نسخه اصلی محتوا لینک دهد نه به نسخه تغییریافته ی آن.
(برای اطلاعات بیشتر می توانید قسمت Whiteboard Friday درباره برخورد با محتوای تکراری را ببینید.)
برای محافظت بیشتر در برابر دزدیده شدن محتوا (content scrapers) و جلوگیری از سرقت امتیاز سئو، بهتر است به صفحات خود تگ rel=canonical خودارجاعی اضافه کنید.
این تگ کنونیکال به همان URL اشاره دارد که در حال حاضر در آن قرار دارد، هدف آن این است که از تلاش اسکرپرها برای سرقت محتوای شما جلوگیری کند.

تگی که در آن URL مشخص شده در rel=canonical دقیقاً با URL فعلی صفحه یکی است.

در حالی که همه ی اسکرپرها کد کامل HTML را کپی نمی کنند، برخی این کار را انجام می دهند. برای آن هایی که انجام می دهند، تگ rel=canonical خودارجاعی تضمین می کند که نسخه سایت شما به عنوان نسخه ی "اصلی" محتوا شناخته شود.

نتیجه گیری

محتوای تکراری یکی از مشکلات رایج است که می تواند تأثیر قابل توجهی بر عملکرد سئوی یک وب سایت داشته باشد.
با درک علل ایجاد محتوای تکراری، شناسایی مشکلات و پیاده سازی راه حل هایی مانند تگ های کنونیکال (canonical tags) و ریدایرکت های 301، مدیران وب سایت می توانند قابلیت خزیدن سایت را بهبود دهند، از کاهش اعتبار لینک ها جلوگیری کنند و رتبه سایت خود را افزایش دهند.

انجام ممیزی های منظم سایت (site audits) و پایش صفحات ایندکس شده کمک می کند تا مشکلات محتوای تکراری به سرعت شناسایی و اصلاح شوند و اطمینان حاصل شود که وب سایت شما برای موتورهای جستجو بهینه است و تجربه کاربری بهتری ارائه می دهد.

با انجام این اقدامات، می توانید مطمئن شوید که محتوای شما منحصر به فرد، معتبر و به راحتی توسط موتورهای جستجو قابل کشف است، که در نهایت منجر به نتایج بهتر در جستجو و حضور قوی تر آنلاین خواهد شد.

منبع Moz

۱۰۶

۱۴۰۴/۹/۸