robots.txt چیست؟ آموزش نحوه کار و استفاده از فایل robots.txt

خزنده های موتور جستجو تمامی وب سایت شما را مورد پیمایش قرار می دهد تا به صفحات سایت شما دسترسی پیدا کند و آنها را ایندکس گذاری نماید. به طور کلی صاحبان وب سایت ها از اینکه موتورهای جستجو صفحات دلخواه آنها را ایندکس گذاری نمایند بسیار خوشنود می شوند. با این حال موقعیت هایی هم وجود دارد که صاحبان وب سایت ها نمی خواهند که برخی از صفحات سایتشان ایندکس گذاری شود.

فایل robots.txt چیست؟

فایل robots.txt یک فایل متنی است که در ریشه وب سایت قرار می‌گیرد و به موتورهای جستجو می‌گوید که کدام بخش‌ها یا صفحات سایت باید اسکن و فهرست بشوند و کدام بخش‌ها باید نادیده گرفته شوند. این فایل معمولاً برای کنترل و مدیریت رفتار موتورهای جستجوی مختلف استفاده می‌شود. با استفاده از فایل robots.txt، شما می‌توانید دسترسی موتورهای جستجو را به بخش‌های محدودی از سایت خود محدود کنید.

به عنوان مثال، شما ممکن است بخواهید صفحات حساس مانند صفحات ورود کاربر یا صفحات با محتوای خصوصی را از فهرست موتورهای جستجو خارج کنید. فایل robots.txt بر پایه توافقات پروتکل های اینترنتی استانداردی است که به عنوان پروتکل هماهنگی خودکار موتورهای جستجو عمل می کند. با استفاده از این فایل، شما می‌توانید قوانین مشخصی را برای موتورهای جستجو تعریف کنید و آن‌ها را به عملیات مشخصی هدایت کنید.

محتوای فایل robots.txt شامل تعریف‌هایی است که موتورهای جستجو باید در رابطه با دسترسی به صفحات سایت شما رعایت کنند. به عنوان مثال، با استفاده از دستور “User-agent” می‌توانید موتورهای جستجو را مشخص کنید که این قوانین برای آن‌ها اعمال شود، و با استفاده از دستور “Disallow” می‌توانید آدرس‌های صفحاتی را مشخص کنید که می‌خواهید موتورهای جستجو آن‌ها را نادیده بگیرند.

به طور کلی، فایل robots.txt مهم است زیرا به موتورهای جستجو اجازه می‌دهد که بازدید و فهرست بخش‌های مهم سایت شما را بهبود بخشند، در عین حال از دسترسی به بخش‌های حساس یا ناخواسته جلوگیری کنند.

برای مثال اگر درحال راه اندازی یک وب سایت جدید هستید، بهترین اقدام این است که موتورهای جستجو را از ایندکس گذاری سایتتان منع کنید تا وب سایت نیمه کاره ی شما در صفحات جستجو ظاهر نشود. این کار را می توان به آسانی با خواندن صفحه ی تنظیمات در آدرس yourwebsite.com/wp-admin/options-reading.php انجام داد.

تمام کاری که نیاز است انجام دهید این است که در بخش search engine visibility اسکرول را به پایین برده و گزینه ای تحت عنوان “از موتورهای جستجو درخواست کن تا محتوای سایت را بررسی نکنند” را فعال نمایید.

ورد پرس به شما این امکان را می دهد تا تمامی موتورهای جستجو را از ایندکس گذاری سایتتان منع نمایید و به نوعی آنها را بلاک کنید. متاسفانه در وردپرس این قابلیت وجود ندارد که بتوانید تنها برخی از صفحات را از ایندکس گذاری حذف کنید. به عبارت دیگر در وردپرس می توانید دستور دهید که تمامی صفحات ایندکس گذاری شوند یا هیچ کدام از آنها ایندکس گذاری نشوند. جلوگیری از ایندکس گذاری برخی از صفحات در بسیاری از موارد بسیار ضروری است.

برای مثال می توان در وبلاگ، صفحه ای که مربوط به دانلود می باشد را از ایندکس گذاری ها حذف نمود. این کاری است که در اکثر وبلاگ ها صورت نمی گیرد. این به این معنی است که کاربران می توانند با یک جستجوی آنلاین ساده کتاب های الکترونیک و فایل های دیجیتال موجود در سایتتان را دانلود نمایند و اصلا به سایت شما ورود نکنند.

راه های زیادی وجود دارد که با استفاده از آنها می توانید موتورهای جستجو را از ایندکس گذاری صفحات و محتواهای خودتان منع کنید. در این مقاله قصد داریم برخی از این راه ها که در دسترس تر هستند را به شما معرفی نماییم.

بررسی اجمالی ربات های تگ متا (Robots Meta Tag)

گوگل توصیه می کند که وبمسترها صفحات سایت را با استفاده از Robots Meta Tag بلاک کنند.

Robots Meta Tag از این فرمت تبعیت می نماید :

robots meta tag باید در بخش هدر وردپرس قرار داده شود.

به طور دقیق این تگ باید بینوقرار داده شود.

برای نام و ویژگی های دیگر محتوا مقدار های متفاوتی در دسترس است.

مقدار هایی که توسط گوگل برای بلوکه کردن دسترسی به یک صفحه پیشنهاد شده است، robots و noindex می باشد :Robots تمامی موتورهای جستجو را در بر می گیرد اما noindex تنها به موتورهای جستجو می گوید که صفحه در ایندکس گذاری ها مد نظر قرار داده نشود.

اگر می خواهید دسترسی به محتوای شما در برخی موتورهای جستجوی خاص بلوکه شود، باید بجای مقدار robots از نام اسپایدر آن موتور جستجو استفاده نمایید.

برخی از اسپایدر های موتورهای جستجوی شناخته شده با این نام ها شناخته می شوند : googlebot – Google googlebot-news – Google News googlebot-image – Google Images bingbot – Bing teoma – Ask از جمله اسپایدر های شناخته شده ای که در لیست بالا به آن اشاره نشد MSNBot و Slurp می باشند.

MSNBot نام اسپایدری است که برای ایندکس گذاری صفحات مربوط به Live Search، Windows Live Search و MSN Search استفاده می گردد.

این اسپایدر ها در سال 2009 . 2010 برند خود را با بینگ ادغام کردند و اکنون با نام Bingbot شناخته می شوند.

MSNBot هنوز هم توسط Microsoft برای پیمایش صفحات وب به کار برده می شود اما به زودی این اسپایدر از رده خارج خواهد شد.

Slurp نام اسپایدری بود که توسط موتور جستجوی یاهو مورد استفاده قرار می گرفت.

کار این اسپایدر هم در سال 2009 به اتمام رسید و یاهو برای تقویت موتور جستجوی خود از Bing استفاده نمود.

برای بلاک کردن برخی موتورهای جستجوی خاص کافی است در کد به جای robots  از نام اسپایدر آن موتور استفاده نمایید.

برای مثال :شما می توانید موتورهای جستجوی بیشتری را نیز بلاک نمایید.

کافی است نام چند اسپایدر را در کد بنویسید و آنها را با یک کاما از هم جدا کنید :تا اینجا شما با نحوه ی استفاده از متا تگ noindex آشنا شدید.

مقدارهای دیگری نیز وجود دارند که برای محتوا مورد استفاده قرار می گیرند.

این مقادیر با عنوان دستورات (directives) شناخته می شوند.

در اینجا لیستی ارائه می گردد که در آن مهمترین دستورات در دسترس ارائه شده است :

All – هیچ محدودیتی در ایندکس گذاری یا لینک دهی لحاظ نشود Index – صفحه و همچنین یک لینک دسترسی در نتایج جستجو به نمایش درآورده شود.

Noindex– صفحه و همچنین لینک دسترسی در نتایج جستجو به نمایش گذاشته نشود.

Follow– لینک های موجود در صفحه پیگیری شود.

Nofollow – لینک های موجود در صفحه پیگیری نشود.

None – نحوه ی استفاده کاملا شبیه noindex, nofollow می باشد.

Noarchive– لینک دسترسی در نتایج جستجو به نمایش گذاشته نشود.

Nocache- لینک دسترسی در نتایج به نمایش گذاشته نشود.

Nosnippet- هیچ اسنیپتی برای صفحه ی مورد نظر در نتایج جستجو به نمایش در نیاید.

Noodp- از متا دیتا های Open Directory Project برای عناوین و اسنیپت های این صفحه استفاده نشود.

Noydir – از متادیتا های دایرکتوری Yahoo برای عناوین و اسمیپت های این صفحه استفاده نشود.

Notranslate – در نتایج جستجو برای این صفحه پیشنهاد ترجمه به زبان دیگر ارائه نشود.

Noimageindex – تصاویر این صفحه اندیش گذاری نشوند.

unavailable_after: [RFC-850 date/time] – بعد از تاریخ و زمانی که در فرمت RFC 850 آمده است، این صفحه در نتایج جستجوها نمایش داده نشود برخی از این دستورات فقط در برخی موتورهای جستجوی خاص قابل اجراست.

برای مثال unavailable_after ، nosnippet و notranslate تنها در موتور جستجوی گوگل پشتیبانی می شوند.

Noydir تنها در موتور جستجوی یاهو و nocache تنها در موتور جستجوی بینگ قابل اجرا هستند.

بقیه ی موتور های جستجو که کمتر شناخته شده هستند دستورات کلی که مربوط به موتور های جستجوی بزرگ نیستند را پشتیبانی می کنند.

برخی از دستورات نیز در گذشته کارایی داشته اند اما اکنون از رده خارج شده اند : برای مثال و نتایج کاملا مشابهی را بوجود می آورند و هیچ دلیلی ندارد که از این تگ ها استفاده شود زیرا موتورهای جستجو بصورت پیشفرض محتواها را ایندکس گذاری می کنند و لینک ها را پیگیری می نمایند.

اگر شما در تلاش هستید که ایندکس گذاری یک صفحه توسط موتورهای جستجو را متوقف نمایید،دستور nofollow به خودی خود نمی تواند مورد استفاده قرار گیرد.

دستور nofollow به موتورهای جستجو توصیه می کند که لینک های داخل صفحه مورد پیگیری قرار داده نشوند.

شما می توانید از این دستور برای توقف پیمایش یک صفحه استفاده نمایید.

این نتیجه همانند نتیجه ای است که از استفاده ی ویژگی nofollow برای لینک ها بدست می آید.

وبلاگی را تصور کنید که تنها یک لینک به صفحه ی دانلود داده است.

در این مورد می توان از متا تگ nofollow در header صفحه ی دانلود استفاده کرد تا اینکه اسپایدر های موتورهای جستجو هرگز صفحه ی دانلود را مشاهده ننمایند. این رویه، خزنده های موتورهای جستجو را از پیمایش این صفحه و همچنین ایندکس گذاری آن باز می دارد. چه خوشتان بیاید و چه نیاید، بدون شک شخص دیگری به صفحه ی دانلود مورد نظر شما لینک خواهد داد. این به این معنی خواهد بود که دستور nofollow به خودی خود بی اثر خواهد شد و در صورتی که از تگ nofollow در هدر استفاده نشود به هر حال صفحه در نتایج به نمایش در خواهد آمد.

بیشتر بخوانید  10 راه طلایی برای افزایش جذب مخاطب از طریق محتوا

اگر صفحه ای شناخته شده برای دانلود داشته باشید تقریبا غیر ممکن است که دیگران به آن لینک ندهند. به همین دلیل علاوه بر دستور nofollow به دستور noindex نیز نیازمند خواهید بود. این دستور شما را مطمئن خواهد کرد که صفحه ی شما در نتایج جستجو ظاهر نخواهد شد. همچنین لینک های بدست آورده شده توسط این صفحه نیز به نمایش درنخواهند آمد.

اگر از noindex استفاده می نمایید نیازی به استفاده از دستور noarchive نمی باشد. بنابراین برای جلوگیری از ایندکس گذاری یک صفحه توسط موتورهای جستجوگر همچنین جلوگیری از پیگیری یک لینک، باید در هدر صفحه خط زیر را اضافه نمایید :عبارت بالا می تواند به صورت نیز نوشته شود. با این حال همه ی موتورهای جستجوگر از دستور none  پشتیبانی نمی کنند.

از این رو بهتر است بجای none  از noindex,nofollow استفاده شود.

اگر می خواهید یک صفحه را از نتایج جستجو حذف کنید اما می خواهید که موتورهای جستجو همچنان لینک های موجود در آن صفحه را پیمایش نمایند، می توانید از عبارت زیر بهره بگیرید :هزاران مقاله ی آنلاین وجود دارد که به اشتباه عقیده دارند که عبارت بالا باید بصورتنوشته شود.

گوگل به صراحت اعلام کرده است که نباید در یک متا تگ از یکی از دستورات index یا follow استفاده شود.

در سال 2007 گوگل این موضوع را با بیان عبارت زیر روشن کردند : “بصورت پیش فرض، ربات گوگل یک صفحه را ایندکس گذاری می کند و لینک هایی که به آن داده شده است را نیز پیگیری می نماید. از این رو نیازی نیست که برای یک صفحه از تگ هایی با مقادیر INDEX  یا FOLLOW استفاده شود.”

هنگامی که از متا تگ robots  در وب سایتتان استفاده می کنید حتما به این نکته توجه داشته باشید : تگ های متا به بزرگی و کوچکی حروف حساس نیستند. از این رو،هر سه عملکردی یکسان خواهند داشت.

اکنون می دانید چگونه می توان ایندکس گذاری صفحه توسط موتورهای جستجو را متوقف نمایید. با این حال در اضافه کردن متا تگ ها به قالب فایل header.php مشکلی وجود دارد.

بلوکه کردن یک صفحه، منجر به این خواهد شد که از ایندکس گذاری صفحاتی که توسط وردپرس قدرت گرفته اند جلوگیری شود. برای اطمینان از اینکه تنها یک محتوا یا یک صفحه ی خاص از ایندکس گذاری منع شده است، باید از یک عبارت if استفاده کنیم. به این صورت دستور noindex تنها به صفحه ای خاص تعلق پیدا می کند.

در ادامه به شما نشان خواهیم داد که این رویه دقیقا به چه شکل اجرا می شود : اضافه کردن متا تگ Robots  به Theme Header

اضافه کردن تگ های متا بوسیله ی تغییر در قالب فایل header.php

در ادامه سه روش برای اضافه کردن تگ های متا بوسیله ی تغییر در قالب فایل header.php به شما ارائه خواهد شد.

در هر سه روش نتایج بدست آمده شبیه به هم خواهند بود.

با این حال شما ممکن است یکی از این روش ها را نسبت به بقیه ترجیح دهید.

روش 1 :به منظور بلاک کردن یک صفحه یا محتوای خاص، باید post ID مربوط به آن را بدانید.

آسان ترین راه برای یافتن این ID ویرایش آن می باشد.

هنگامی که هر نوع صفحه ای را در وردپرس ویرایش می کنید، یک URL شبیه به yourwebsite.com/wp-admin/post.php?post=15&action=edit در نوار آدرس دیده می شود.

شماره ای که در این آدرس نشان داده می شود همان post ID می باشد. این شماره به ردیف محتوا در جدول پایگاه داده ی وردپرس اشاره می کند.

در مثال بالا post ID عدد 15 می باشد. پس از اینکه ID محتوا یا صفحه ای که قصد بلاک کردن آن را دارید را یافتید، با اضافه کردن این کد در head section قالب فایل header.php می توانید ایندکس گذاری این صفحه توسط موتورهای جستجوگر را متوقف نمایید. این عبارت باید بینوقرار داده شود. شما می توانید این عبارت را در هر جایی قرار دهید. توصیه ی ما این است که این عبارت در زیر یا بالای تگ های متا قرار داده شود تا در مواقع نیاز به راحتی بتوانید آن را بیابید.

در کد بالا X نشان دهنده ی ID  مربوط به محتوایی است که قصد بلاک کردن آن را دارید.

بر فرض اگر این ID مقدارش 15 باشد، کد به شکل زیر خواهد بود : از آنجایی که تمامی انواع محتواها در جدول پایگاه داده ی محتواهای وردپرس ذخیره می شوند، کد بالا برای هر نوع صفحه ای کارایی خواهد داشت. همچنین می توانید صفحات اضافی موجود در سایتتان را با استفاده از عملگر OR بلاک نمایید. کافی است که ID مربوط به صفحه هایی که می خواهید بلاک شوند را بجای X و Y و … بیاورید.

برای مثال : در این حالت صفحات با ID به شماره های 15 ، 137 و 4008 بلاک می شوند.

برای تایید اینکه همه چیز را به درستی پیکربندی کرده اید، باید بررسی نمایید که صفحات بلاک شده همان هایی هستند که مد نظر شما بوده اند. آسان ترین راه این است که منبع صفحه ای که قصد بلاک کردن آن را داشتید را مشاهده نمایید.

اگر کد را به درستی اضافه کرده باشید، عبارت را خواهید دید که در بخش head آن صفحه قرار داده شده است.

اگر اینطور نباشد شما کد را به درستی وارد نکرده اید.

شما همچنین باید سورس کد یکی از صفحاتی را که قصد ندارید از ایندکس گذاری آن توسط موتور جستجو جلوگیری کنید را نیز مورد بررسی قرار دهید.

به این ترتیب مطمئن خواهید شد که تمامی صفحات شما توسط تگ ها بلوکه نشده اند.

اضافه کردن متا تگ Robots  به Theme Header :

روش 2 : شما می توانید با استفاده از تگ های مشروط وردپرس (WordPress conditional tags)، ایندکس گذاری صفحات توسط موتورهای جستجو را بلاک نمایید.

به منظور استفاده ی صحیح از این تکنیک، باید از تگ های مشروط مناسبی بهره بگیرید. برای مثال، شما باید برای یک محتوا از is_single و برای یک صفحه وردپرس از is_page استفاده نمایید.

یک بار دیگر ما باید کدی را به قسمت head قالب فایل header.php اضافه نماییم.

در مثال زیر، X نشان دهنده ی ID محتوایی است که قصد داریم ایندکس گذاری آن را مسدود نماییم.

تگ های مشروط نسبت به نحوه ی مشخص کردن محتوا یا صفحه ی شما کاملا انعطاف پذیر هستند.

شما می توانید از ID محتوا، عنوان محتوا یا post slug استفاده نمایید.
اولین محتوای وبلاگی را که در وردپرس وارد شده است را درنظر بگیرید.

این محتوا دارای ID شماره ی 1 می باشد.

عنوان این محتوا Hello World بوده و همچنین post slug آن نیز Hello World بوده است.

از این رو در کد می توانیم این محتوا را بصورت زیر تعریف نماییم :
و اگر می خواهید بیش از یک صفحه را بلاک کنید می توانید از عملگر OR  استفاده نمایید. برای مثال :
تگ های مشروط همچنین از آرایه ها نیز پشتیبانی می نمایند.

استفاده از آرایه ها ایده ی بهتری برای مدیریت بهتر چندین محتوا یا چندین صفحه بصورت یکجا می باشد.

در مثال زیر، اگر هر دو صفحه به نمایش درآید، مقدار عبارت if برابر با true خواهد بود. می توانید مشاهده کنید که صفحات با استفاده از page slug، عنوان صفحه (page title) و ID صفحه مشخص شده اند.

توجه داشته باشید که در استفاده از تگ های مشروط، برای هر صفحه باید از تگ صحیحی استفاده نمایید. از این رو شما نمی توانید از یک آرایه برای هر دوی محتوا و صفحه استفاده نمایید.

اگر می خواهید دسترسی موتورهای جستجو به یک محتوا و یک صفحه در سایتتان را مسدود نمایید، باید از کدی مانند کد زیر بهره بگیرید :

اگر تعداد بسیار زیادی محتوا و صفحه دارید، می توانید از یک عملگر OR  بین یک آرایه ی  is_single و یک آرایه ی is_page استفاده نمایید.
برای ساده کردن نکات بالا، عبارت if را دوباره نویسی کرده ایم تا این تکنیک را توضیح دهیم. فراموش نکنید هنگام اضافه کردن کد به بخش header وب سایت، متا تگ در کد وجود داشته باشد و عبارت endif نیز جا نیافتد.

می توانید محتواهایتان را با استفاده از عنوان محتوا و slug محتوا مشخص نمایید. این کار به شما کمک می کند که به راحتی کد را باز بینی نمایید و دریابید که کدام مقالات را بلاک کرده اید. با این حال، این کار کمی ریسکی می باشد. عنوان یک محتوا ممکن است تغییر کند. اما ID محتوا همواره ثابت باقی می ماند.

اگر به محتوا، عنوان صفحه یا slug در کد اشاره کرده باشید، و سپس شخصی در عنوان یا slug تغییری ایجاد نماید، کد دیگر کار نخواهد کرد. هر بار که شما تغییری در عنوان صفحه یا slug ایجاد می نمایید، باید کد متا تگ را نیز در header.php به روز نمایید. به همین دلیل توصیه می شود از ID مربوط به محتوا یا صفحه استفاده نمایید.

بیشتر بخوانید  لینک سازی داخلی و خارجی - سئومکانیک

در دراز مدت، اگر می خواهید پست ها و صفحات زیادی را مخفی کنید، این روش عملی تر به نظر می رسد.

اضافه کردن متا تگ Robots  به Theme Header 

روش3: تکنیک دیگر برای مسدود نمودن محتوا این است که از ویژگی custom field وردپرس استفاده نمایید.

اولین کاری که باید انجام دهید این است که کد زیر را به قسمت هد قالب فایل header.php وارد نمایید.

if ($noindex) {
echo '';
}
?>

نیازی نیست که در کد بالا تغییری ایجاد کنید و ID  محتوا یا عنوان محتوا را در آن قرار دهید.

بجای مشخص نمودن صفحه یا محتوا برای بلوکه شدن، از custom field برای این منظور استفاده می نمایید.

کافی است یک custom field تحت عنوان noindex-post مشخص کنید و یک مقدار به آن اختصاص دهید.

مهم نیست که چه چیزی در آن وارد می نمایید.

فقط کافی است مطمئن شوید که مقداری در فیلد وارد شده است تا اینکه noindex-post مربوط به custom field مقدار true را در کدی که در هدر قرار داده اید بازگرداند.

مراحل بالا را برای هر نوع محتوایی که می خواهید از ایندکس گذاری موتورهای جستجو دور بماند انجام دهید.

به نظر می آید این روش بسیار کاربر پسندتر از دیگر روش ها می باشد.

به طوری که طراح سایت می تواند آن را برای مشتری خود پیکر بندی نماید زیرا با این روش بلوکه کردن محتواها و صفحات بسیار ساده می باشد. با این حال، این روش یک راه آسان برای بررسی اینکه کدام محتواها و صفحات بلاک شده اند ارائه نمی نماید.

اگر از این تکنیک استفاده کنید و با استفاده از آن تعداد زیادی صفحه را بلاک نمایید، عاقلانه ترین کار این است که اطلاعات مربوط به صفحاتی که بلاک شده اند را در یکجا یادداشت نمایید.

بلاک کردن موتورهای جستجو با استفاده از یک افزونه ی وردپرس

اگر می خواهید دسترسی موتورهای جستجو به تعداد زیادی از صفحات و محتواهایتان را مسدود نمایید، بهترین راه حل این است که از یک افزونه ی وردپرس استفاده نمایید. این افزونه PC Hide Pages می باشد.

برای حذف نمودن یک صفحه از نتایج جستجو با استفاده از افزونه، کافی است از لیست صفحات صفحه ی مورد نظرتان را بیابید. پس از انجام این کار، افزونه به صورت خودکار متا تگ مناسب را به صفحه ی درخواست شده اعمال خواهد نمود.

این یکی از بهترین روش ها برای مخفی کردن صفحات از دید موتورهای جستجو می باشد. زیرا با این روش می توانید در یک نگاه بفهمید که کدامیک از صفحات سایت شما از دید موتورهای جستجو مخفی شده اند و می توانید این کار را مستقیما از طریق WordPress admin area انجام دهید. تنها نقطه ضعف این افزونه این است که افزونه آنها صفحات وردپرس را پشتیبانی می نماید. این افزونه پست های وبلاگی و دیگر انواع محتواها را پشتیبانی نمی نماید.

این موضوع برای کسانی که به طور کلی از وردپرس برای مدیریت کامل محتواهایشان استفاده می نمایند هیچ مشکل خاصی ایجاد نمی کند و این دسته از کاربران می توانند به راحتی از این افزونه استفاده نمایند.

اگر وب سایت شما از یک پلاگین وردپرس بسیار محبوب که مربوط به موتورهای جستجو می باشد استفاده می نماید (مانند WordPress SEO یا All in One SEO Pack)، پس شما اکنون قابلیت حذف نمودن محتوا از موتورهای جستجو را دارید.

Yoast یکی از اولین پلاگین هایی بود که به صاحبان وب سایت ها کمک کرد تا به راحتی موتورهای جستجو را بلوکه کنند.

Yoast بعدها پلاگین Robots Meta خود را با WordPress SEO ادغام کرد.

بخش Titles & Metas settings در WordPress SEO زیر شاخه ای با عنوان Sitewide meta settings دارد.

این بخش به شما اجازه می دهد تا به آسانی دستور noindex را به زیر صفحه های آرشیو اعمال نمایید و عناوین و اسنیپت ها را از Open Directory Project و دایرکتوری یاهو که مورد استفاده قرار گرفته بود، غیر فعال نمایید.

WordPress SEO امکانات زیادی برای کنترل نحوه ی رفتار موتورهای جستجو با صفحات سایتتان در اختیار شما قرار می دهد.

اولین گزینه کنترل می کند که آیا یک صفحه توسط موتورهای جستجو ایندکس گذاری می شوند یا خیر.

دستور اضافی مربوط به متا تگ robots در اینجا می تواند اعمال شود.

دستورات follow، nofollow ، none و noarchive از جمله دستورات قابل اعمال می باشند.

همچنین قادر خواهید بود که یک صفحه را از نقشه ی سایتتان حذف نموده و یا صفحات موجود در نقشه ی سایت را اولویت بندی نمایید.

اگر می خواهید ترافیک را از یک صفحه به مکان دیگری انتقال دهید، می توانید در اینجا از ریدایرک301 استفاده نمایید.

صفحه ی اصلی تنظیمات مربوط به افزونه ی All in One SEO بخشی دارد که با عنوان Noindex Settings شناخته می شود. در این بخش شما می توانید به آسانی متا تگ nofollow را در ناحیه های مختلفی از سایتتان اعمال نمایید.

برای مثال، می توانید تگ nofollow را به دسته بندی ها، آرشیو نویسنده و آرشیو تگ ها اعمال کنید.

همچنین می توانید عناوین و اسنیپت ها را از دایرکتوری یاهو و Open Directory Project غیر فعال نمایید. همانطور که می بینید، این بخش انتخاب های عمومی بیشتری را نسبت به WordPress SEO ارائه می نماید.

درست همانند WordPress SEO، افزونه ی All in One SEO یک settings area به صفحه ی ویرایش محتوا (post editor page) اضافه می نماید. در این بخش علاوه بر استفاده از noindex و nofollow، می توانید صفحه را از نقشه ی سایت خارج کنید و همچنین Google Analytics را غیر فعال نمایید.برای کنترل محتوا، امکانات All in One  در مقایسه با WordPress SEO ضعیف تر می باشد.

WordPress SEO و All in One SEO Pack درست همانند custom field که در بالا توضیح داده شده است عمل می نمایند.

درست همانند custom field باید noindex,nofollow را از طریق ویرایشگر محتوا (post editor) انتخاب نمایید.

اگر در حال حاضر یکی از این افزونه ها را مورد استفاده قرار داده اید، می توانید از آنها برای بلوکه کردن برخی از محتواها و صفحات سایتتان بهره بگیرید.

با استفاده از فایل Robots.txt مانع از کراول شدن صفحات و یا پست ها توسط موتورهای جستجوگر شویم.

شما می توانید با استفاده از فایل Robots.txt تعیین کنید که اسپایدرهای موتورهای جستجوگر کدام صفحات و پست های وب سایت شما را ایندکس گذاری کنند و کدام ها را ایندکس گذاری نکنند.

برای انجام این کار شما باید ابتدا یک فایل تکست یا .txt جدید ایجاد کنید و در آن تعیین کنید که کراولرها کدام صفحات و پست های شما را ایندکس گذاری نکنند و سپس آن فایل تکست را به عنوان فایل Robots.txt وب سایت خود در آن ذخیره سازی نمایید.

مفهوم نهفته در پشت پروتکل Robots.txt مشابه با مفاهیم نهفته در متا تگ Robots می باشد که در این مقاله مفصلا در رابطه با آن صحبت شد. تنها تفاوت این دو مفهوم در رابطه با قوانین اولیه می باشد که در ادامه به آنها پرداخته خواهد شد.

⦁ User-agent: این خط کد تعیین کننده آن است که دستور اعمال شده برای کدام دسته از اسپایدرهای موتورهای جستجوگر باید اعمال گردد.

⦁ Disallow: این خط کد تعیین کننده URL و یا دایرکتوری مشخصی است که شما می خواهید آن را بلاک نمایید.

نام هایی که در بخش های قبلی این مقاله برای اسپایدرهای موتورهای جستجوگر ذکر شد در فایل Robots.txt نیز صادق است، یعنی شما می توانید دستور User-agent را به شکل زیر به کار ببرید:

User-agent: Googlebot

که این خط کد برای اشاره به آن است که دستور نوشته شده باید بر روی اسپایدرهای گوگل اعمال شود، اما اگر در خط کد بالا به جای Googlebot نوشته شده بود Bingbot خط دستور بر روی اسپایدرهای موتور جستجوگر بینگ اعمال می گردید.

البته دستور user-agent معمولا به شکل زیر استفاده می گردد:

User-agent:*

که در این صورت دستور نام برده بر روی تمام موتورهای جستجوگر اعمال می گردد.

همان طور که گفته شد دستور Disallow اسپایدرها را از ایندکس گذاری یک URL و یا دایرکتوری خاص منع می کند.

برای مثال اگر دستور Disallow به شکل Disallow: / مورد استفاده قرار گیرد دسترسی ربات ذکر شده در دستور user-agent به تمامی صفحات وب سایت محدود می گردد و اگر این دستور به شکل Disallow: /admin.php به کار گرفته شود دسترسی موتورمشخص شده در دستور user-agent به صفحه admin.php محدود می گردد.
در زیر چند مثال از استفاده دستورات فوق الذکر آورده شده است و شما می توانید با مطالعه این مسال ها متوجه عملکرد کلی این دستورات بشوید:
مثال 1:

User-agent: *
Disallow: /

دستورات بالا از کراول شدن و ایندکس گذاری تمامی صفحات وب سایت توسط تمامی موتورهای جستجوگر جلوگیری می نمایند.

این دستورات زمانی کاربرد دارد که مشکلی برای وب سایت شما ایجاد شود و یا شما بنابر دلیلی مثل ایجاد تغییرات بنیادی در سایت و یا تغییر کاربری آن بخواهید برای مدت نامعلومی مانع از آن شوید که اسپایدرهای موتورهای جستجوگر صفحات وب سایت شما را ایندکس گذاری نمایند.

بیشتر بخوانید  مخفی کردن کلمات کلیدی از دید کاربران و تاثیر آن بر سئو

مثال 2- اگر بخواهید که موتورهای جستجوگر دایرکتوری های مشخصی را در وب سایت شما ایندکس گذاری نمایند می توانید کدی به شکل زیر در فایل robots.txt خود ایجاد کنید:

User-agent: *
Disallow: /tmp/
Disallow: /junk/
Disallow: /bin/

این دستورات مانع از آن می شوند که دایرکتوری های Junk، bin و tmp توسط هیچ یک از موتورهای جستجوگر کراول شوند.

مثال 3- اگر شما بخواهید ربات های موتورهای جستجوگر را از ایندکس گذاری صفحه admin.php منع شوند باید کدی به شکل زیر بنویسید:

User-agent: *
Disallow: /admin.php

شما همچنین می توانید برای ربات های موتورهای جستجوگر مختلف قوانین مختلفی تعیین نمایید. برای این کار باید کدی به شکل زیر بنویسید:

User-agent:*
Disallow: /admin.php

User-agent: googlebot
Disallow: /images/

User-agent: bingbot
Disallow: /

دقت داشته باشید که در نام بردن صفحات و دایرکتوری ها و یا حتی نام موتورهای جستجوگر بزرگی و کوچکی حروف را رعایت کنید زیرا فایل Robots.txt به کوچک و بزرگ بودن حروف حساس می باشد.

برای مثال اگر شما فایلی با نام My-eBook.pdf در سایت خود داشته باشید و بخواهید مانع از آن شوید که موتورهای جستجوگر آن را کراول کنند و دستوری به فرم زیر بنویسید:

Disallow: /downloads/myebook.pdf

این دستور عملکرد درستی نخواهد داشت زیرا در آن به بزرگی و کوچکی حروف توجه نشده است.

یک دستور پر کاربر دیگر نیز در ایجاد فایل های robots.txt می تواند مورد استفاده قرار بگیرد و آن هم دستور Allow است. با استفاده از این دستور می توانید یکی از موتورهای جستجوگر را از لیستی که توسط User-agent تعیین نموده اید خارج کنید و امکان دسترسی به یک ربات خاص بدهید.

برای درک بهتر این مفهوم به مثال زیر توجه کنید:

User-agent: *
Disallow: /

User-agent: Googlebot-Image
Allow: /images/

بخش بالایی این دستورات موجب می گردد که تمامی ربات ها از کراول کردن سایت شما منع گردند و بخش دوم این دستورات موجب می شود که ربات Google Image مطالب موجود در فولدر Image را ایندکس گذاری نماید.

یکی دیگر از قابلیت های ویژه robots.txt امکان تطبیق الگو می باشد.

با استفاده از این امکان شما می توانید فایل ها و یا مطالب را بر اساس نام آنها بلاک کنید. یعنی برای مثال شما دستوری بنویسید که هر فایلی که در نام آن عبارت “lft” وجود داشت بلاک گردد.

البته این کاربرد در موارد بسیار نادری مورد استفاده قرار می گیرد و بنده ضرورتی در آموزش آن به شما کاربران عزیز نمی بینم.

پس از آنکه شما دستورهای مورد نظر خود را در فایل robots.txt نوشتید باید آنها را ذخیره کنید و سپس فایل را در root دامنه خود آپلود نمایید.

فایل robots.txt شما باید در آدرس yourwebsite.com/robots.txt قابل دستیابی باشد.

در این بخش ما تنها قصد داشتیم که دید مختصری درباره ایجاد فایل robots.txt به شما بدهیم اما از ارائه توضیحات بیشتر درباره ایجاد و نوشتن دستورات در فایل robots.txt در این مقاله صرف نظر نمودیم زیرا مقالات متعددی درباره ایجاد فایل های robots.txt در اینترنت موجود می باشد که شما می توانید با مراجعه به آنها اطلاعات بسیار جامع و کاملی درباره ایجاد فایل robots.txt کسب نمایید.

یکی دیگر از راه های یادگیری ایجاد فایل robots.txt آن است که شما فایل robots.txt دیگر وب سایت ها را بررسی کنید. فایل robots.txt تمامی وب سایت ها را می توانید با سادگی در آدرس “.com/robots.txt نام دامنه وب سایت مورد نظر.WWW” بیابید. به خاطر داشته باشید که برخی وب سایت ها از فایل robots.txt استفاده نمی کنند و شما در صورت جستجو نمودن آدرس فوق با ارور 404 مواجه خواهید شد.

استفاده از فایل robots.txt یکی از رایج ترین راه ها برای متوقف کردن موتورهای جستجوگر از ایندکس گذاری بخشی از وب سایت می باشد و شما می توانید هر زمانی که خواستید قوانینی را که در این فایل تبیین نموده اید تغییر دهید فایل robots.txt جدیدی ایجاد کنید و در وب سایت خود آپلود نمایید.

علاوه بر این هرگاه که بخواهید می توانید با مراجعه به آدرس namedamane.com/robots.txt قوانینی را که در وب سایت خود برای موتورهای جستجوگر تبیین نموده اید کنترل نمایید.

چگونه محتواهای غیر عمومی را از دسترس عمومی خارج نماییم:

متوقف نمودن موتورهای جستجوگر و مانع شدن ایندکس گذاری صفحات وب سایت توسط آنها همیشه بهترین راه نیست.

اگر شما بخواهید یک صفحه از وب سایت خود را از دسترس کاربران اینترنت خارج نمایید، ممکن است به روش بهتری برای این کار نیاز داشته باشید تا به صورت کلی دسترسی به این صفحه را محدود نمایید. برای این کار شما می توانید از پلاگین های مختلفی که برای ایجاد این امکان ایجاد شده اند استفاده نمایید.

این نوع پلاگین ها با نام WordPress Membership Plugins شناخته می شوند.

برای مثال یکی از پلاگین هایی که می تواند برای محدود کردن دسترسی بخش های مختلف وب سایت مورد استفاده قرار گیرد Paid Membership Pro می باشد.

شما می توانید برای محدود کردن دسترسی عموم به محتواهای خاصی که برای مثال استفاده از آنها نیاز به عضویت در وب سایت دارد و یا باید برای استفاده از آنها حق عضویتی پرداخت گردد، را محدود نمایید.

چگونه صفحات ایندکس گذاری شده را از نتایج جستجوهای موتورهای جستجوگر حذف نماییم؟

متاسفانه برخی موتورهای جستجوگر گاهی در ایفای نقش خود دچار مشکلاتی می شوند و در برخی از مواقع به دستور noindex که از جانب مدیر سایت برای برخی صفحات و محتواهای قرار داشده است توجه نمی کنند.

در چنین مواقعی برخی از صفحات وب سایت ها علی رغم میل صاحبان آنها ایندکس گذاری می گردد و در چنین مواقعی صاحبان وب سایت به دنبال راهی برای حذف این صفحات از نتایج جستجوها می گردند.

اطلاعیه گوگل در باره این موضوع :

“دقت داشته باشید که موتورهای جستجوگر ما برای آنکه بتوانند متا تگ noindex صفحات شما را ببینند باید آنها را کراول نمایند و لذا احتمال آن وجود دارد که در برخی مواقع موتورهای جستجوگر گوگل تگ noindex شما را نبییند و یا به آن بی توجه باشند.

اگر شما برای برخی صفحات خود تگ noindex تعیین نموده اید ولی صفحات مدنظر شما همچنان در نتایج جستجوها وجود دارد و حذف نشده است این مساله ممکن است بدان دلیل باشد که پس از ایجاد این تغییر هنوز موتورهای جستجوگر ما صفحات شما را کراول ننموده اند.” در چنین مواقعی شما نیاز به روشی برای حذف صفحات خود از نتایج جستجوها خواهید داشت. یکی از بهترین و موثرترین راه ها برای حذف صفحات وب سایت از نتایج جستجوها استفاده از ابزارهای حذف URL ها از نتایج جستجوهای موتورهای جستجوگر (search engine URL removal tool) می باشد.

شما همچنین می توانید در ابزار وب مستر تولز گوگل در بخش Google index آپشنی بیابید که با استفاده از آن خواهید توانست URL های مد نظر خود را از نتایج جستجوها حذف نمایید.

برای این کار باید ابتدا بر روی گزینه “Create new removal request” کلیک کنید و سپس URL مد نظر خود را در این بخش وارد نمایید. برای این کار باید بخش انتهایی URL که پس از نام دامنه شما آمده است را درون کادر این صفحه بنویسید.

برای مثال اگر شما بخواهدی صفحه ای که در آدرس www.seorooz.net/news/big-news قرار دارد را حذف نمایید باید بخش انتهایی این URL یعنی news/big-news را در کادر درون این صفحه بنویسید.

با استفاده از این ابزار شما می توانید یک صفحه مشخص را از نتایج جستجوهای موتورهای جستجوگر حذف نمایید و یا حتی یک دایرکتوری کامل را از نتایج جستجوها حذف نمایید. در واقع این ابزار می تواند بدین منظور مورد استفاده قرار گیرد که یک وب سایت را به طور کلی از نتایج جستجوها حذف کند.

حذف یک صفحه از نتایج جستجوهای بینگ نیز کاری بسیار ساده است. شما می توانید با استفاده از ابزار Bing Webmaster Tools این کار را انجام دهید.

برای انجام این کار کافیست که وارد بخش Bing Content Removal Tool شوید و آدرس محتوای مورد نظر خود را وارد نمایید.

زمانی که شما آدرس صفحه مورد نظر خود را وارد نمایید، این ابزار یک لیست از صفحاتی که پیشتر آنها را حذف نموده اید نیز به شما نمایش خواهد داد.

متاسفانه هیچ یک از این دو ابزار که نام برده شد قابلیت آن را ندارند که اجازه دهند کاربران یک لیست از صفحاتی که می خواهند از نتایج جستجوها حذف شوند را وارد نمایند، در هر دوی این ابزارها کاربران ملزم هستند که صفحات مد نظر خود را تک به تک وارد کنند.

متاسفانه برخی موتورهای جستجوگر در زمینه عدم ایندکس گذاری صفحاتی که صاحبان وب سایت ها تمایلی به ایندکس گذاری آنها ندارند، عملکرد خوبی ندارند و در برخی مواقع مشکلاتی در این زمینه برای صاحبان وب سایت ها ایجاد می گردد.

البته نرم افزارها، پلاگین ها و ابزارهای متعددی وجود دارند که می تواند به شما در این زمینه کمک نمایند.

برخی از این ابزارها و روش های کار با آنها را در این مقاله معرفی شدند و ما امید واریم که این مقاله سئو روز به قدر کافی جامع بوده باشد که بتواند سوالات شما را در این زمینه پاسخ بدهد.


دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *