خطای کراول زمانی رخ می‌ده که یه موتور جستجو می‌خواد به صفحه‌ای از وب سایت شما دسترسی پیدا کنه تا اون رو خزش کنه اما موفق نمی‌شه. به عبارتی، چیزهایی این وسط به نام خطا هستن که مانع خزش گوگل می‌شن و کار گوگل و همچنین سایت شما رو مختل می‌کنن.

خزش یا خزنده گوگل فرایندی است که موتور جستجو سعی می‌کنه از طریق ربات به هر صفحه‌ای از وب سایت شما مراجعه کنه و اون رو اصطلاحاً خزش کنه.

خطای کراول

خزش به طور خلاصه به این صورته که ربات موتور جستجو پیوندی به وب سایت شما پیدا کرده و شروع به یافتن تمام صفحات عمومی شما از اونجا می‌کنه. در ادامه، ربات صفحات رو کراول می‌کنه و تمام محتوای مورد استفاده در Google رو ایندکس یا فهرست‌بندی می‌کنه. به علاوه، تمام پیوندهای موجود در این صفحات رو به صفحاتی که هنوز در حال خزش شدن هستن انتقال می‌ده.

هدف اصلی شما به عنوان یه مالک وب سایت این هست که مطمئن بشین ربات موتور جستجو می‌تونه به تمام صفحات سایت شما دسترسی پیدا کنه. شکست در فرایند خزنده گوگل می‌شه همون خطایی که قراره در ادامه بیشتر باهاش آشنا بشین؛ یعنی خطای کراول .

همچنین در ادامه شما باید مطمئن بشین که پیوندهایی که در صفحات سایت شما قرار دارن، به سایت های واقعی منتهی می‌شن. این پیوندها ممکنه از نوع ریدایرکت ۳۰۱ باشن، اما همیشه باید صفحه در انتهای اون پیوند پاسخ سرور ۲۰۰ ok رو به همراه داشته باشه.

الان وقتشه که شما با انواع خطای کراول به درستی آشنا بشین تا بتونین از پس رفع کردن اونها بر بیاین. با این عمل، گوگل و سایت شما می‌تونن بدون هیچ اختلالی به کار خودشون ادامه بدن.

انواع خطای کراول

خطای گوگل

Google خطای Crawl رو به دو گروه تقسیم می‌کنه:

  1. خطاهای سایت. شما قطعاً از این خطاها خوشتون نمیاد چون مانع خزش شدن سایت شما توسط گوگل کراولر می‍شن. درضمن، این خطاها انواع دارن که در ادامه با اونها آشنا می‌شیم.
  2. خطاهای URL. واضحه که هیچ مالک سایتی حاضر نیست این نوع از خطای کراول رو هم ببینه. اما خبر خوب اینه که این خطا چون مربوط به یه URL خاص هست، نگهداری و رفع اون نسبت به خطاهای سایت ساده‌تره.

اجازه بدین این موارد رو برای شما باز کنیم تا درک واضح‌تری از این خطا داشته باشین:

۱. خطاهای سایت

خطاهای سایت همه Crawl Error هستن که از دسترسی ربات موتور جستجو به وب سایت شما جلوگیری می‌کنن.

خطاهای سایت می‌تونن دلایل مختلفی داشته باشن که شایع‌ترین اونها موارد زیر هستن:

خطاهای DNS

خطای کراول

خطای DNS در خطای خزش به این معناست که موتور جستجو قادر به برقراری ارتباط با سرور شما نیست. به عنوان مثال ممکنه DNS خراب شده باشه و در نهایت سایت شما توسط مخاطبان بازدید نشه.

اما این خطای DNS معمولاً یه مسئله موقتی است. چون Google بعداً به وب سایت شما برمی‌گرده و سایت شما رو هر جوری که شده جستجو می‌کنه تا بتونه اون رو کراول کنه. بنابراین اگه در کنسول جستجوی Google خود خطای خزش مشاهده کردین احتمالاً به این معنیه که Google چندین بار برای خزش تلاش کرده و هنوز هم نتونسته به سایت شما وارد بشه.

اولین روشی که گوگل برای رفع خطای DNS پیشنهاد می‌ده استفاده از Fetch as Google هست که به شما می‌گه Googlebot چطور در صفحات سایت شما جستجو و خزش می‌کنه. حالا وقتی که شما فقط دنبال خطای DNS با سرعت بالا هستین می‌تونین عمل fetch رو بدون render انجام بدین.

DNS

گاهی اوقات هم می‌شه که حتی این مورد هم جواب نمی‌ده و شما برای رفع خطای DNS باید به سراغ DNS Provider یا ارائه دهنده DNS برین تا بتونین مشکل رو پیدا و رفع کنین.

یادتون باشه وقتی روی سیستم خطای ۴۰۴ و خطای ۵۰۰ نمایش داده بشه اوضاع خوبه. چون وجود این خطاها به طبع بهتر از خطای DNS هست.

خطاهای سرور

اگه کنسول جستجوی شما خطاهای سرور رو نشون می‌ده یعنی ربات گوگل  قادر به دسترسی به وب سایت شما نبوده. در واقع موتور جستجو سعی در بازدید از سایت شما داشته اما بارگیری سایت مدت زیادی طول کشیده و سرور پیام خطای خزش رو به شما ارائه داده.

همچنین، خطاهای سرور از سری خطای کراول ، در صورت بروز نقص در کد هم اتفاق میفتن که می‌تونن از بارگیری یه صفحه از سایت جلوگیری کنن.

علاوه بر این، خطای سرور می‌تونه به این معنی باشه که سایت شما  بازدیدکنندگان زیادی داره اما سرور سایت، توانایی مدیریت تمام درخواست‌ها رو نداره و ارور می‌ده. بسیاری از این خطاها بصورت کدهای وضعیت ۵xx بازگردونده می‌شن، مانند کدهای وضعیت ۵۰۰ و ۵۰۳.

در رفع خطای سرور هم گوگل باز Fetch as Google رو برای اطمینان از دسترسی کامل ربات گوگل به سایت شما پیشنهاد می‌ده. اگه این ابزار هیچ مشکلی در صفحه اصلی شما نشون نده، شما مطمئن می‌شین که موتور جستجو گوگل به صفحه شما هم دسترسی خواهد داشت.

اما لازمه که شما در کنار توضیحات بالا با انواع مختلفی از مشکلات خطای سرور هم آشنا باشین تا بتونین در زمان وقوع خطا اونها رو به درستی تشخیص بدین و حل کنین.

انواع این خطاهای سرور شامل موارد زیر هستن:

  • وقفه زمانی
  • عدم پاسخ
  • هدرهای ناقص
  • وقفه اتصال
  • تنظیم مجدد اتصال
  • اتصال ناموفق
  • پاسخ ناقص و عدم اتصال

خطاهای رباتی

قبل از خزیدن، Googlebot سعی می‌کنه فایل robots.txt  سایت شما رو هم خزش کنه. خزش این فایل فقط برای اینه که مناطق ترجیحی شما برای ایندکس نشدن مشخص بشه.

حالا اگه اون ربات نتونه به پرونده robots.txt برسه، Google خزیدن رو به تأخیر میا‌ندازه تا زمانی که این خطای Crawl رفع بشه و بتونه به پرونده robots.txt دسترسی پیدا کنه. بنابراین همیشه باید از موجود بودن این فایل و درست خزش شدن اون اطمینان حاصل کنین.

برای رفع مشکل فایل robots.txt ابتدا باید ساختاربندی مناسب فایل robots.txt رو تعیین کنین. در واقع، صفحاتی رو که می‌خواین Googlebot اونها رو کراول نکنه رو تعیین کنین تا مشکل و خطایی از سری خطای خزش در کار کروال گوگل اتفاق نیفته. چون در غیر این صورت ربات گوگل به طور پیش‌فرض شروع به خزندگی کل صفحات شما می‌کنه.

علاوه بر این، شما باید وجود بند Disallow رو در پرونده robots.txt بررسی کنین و مطمئن بشین که اصلاً این بند برای عدم خزش فایل وجود نداره.

اگه فایل شما هیچ مشکلی نداشت، اما سرور شما هنوز هم ارور کراول داره، از ابزاری که به عنوان header_server جستجو می‌کنه استفاده کنین تا بفهمین آیا پرونده robots.txt خطای ۴۰۴ یا ۲۰۰ رو نشون می‌ده یا نه.

توضیحاتی که تا الان داده شد مربوط به بخشی از خطای کراول یعنی خطاهایی مربوط به کل سایت بود. اما بخش بعدی از ارور خزش مربوط به بخش دیگه‌ای از این خطاها یعنی خطاهای مربوط به صفحات سایت است.

۲. خطاهای URL

همونطور که در ابتدا گفته شد، خطاهای URL هم جزئی از ارور کراول هستن. این خطاها هنگامی که یه ربات موتور جستجو می‌خواد صفحه خاصی از وب سایت شما رو جستجو کنه، رخ می‌دن.

هنگامی که ما در مورد خطاهای URL صحبت می‌کنیم ، تمایل داریم که در مورد خطا های خزش مانند soft 404 هم بحث کنیم. چون شما باید مرتباً این نوع خطاها رو از طریق Google Search Console یا Bing webmaster tools بررسی کرده و اونها رو برطرف کنین.

حالا جالبه بدونین که ما متوجه شدیم بسیاری از این خطاهای URL توسط پیوندهای داخلی ایجاد می‌شن. یعنی بسیاری از این خطاها تقصیر شماست. بنابراین سر منشا رفع این خطا هم در دست شماست.

یعنی اگه یه روزی یه جایی صفحه‌ای رو از سایت خودتون حذف کردین، برای جلوگیری از خطای URL باید پیوندهای ورودی به اون صفحه رو هم در صفحات دیگه سایت پاک کنین. چون این پیوندها دیگه هیچ استفاده‌ای ندارن. به عبارتی، اگه اون لینکی که به صفحه پاک شده داده شده، سر جاش بمونه، یه ربات اون لینک رو پیدا می‌کنه، دنبال می‌کنه و به بن‌بست می‌رسه. و اون کاری که نباید بشه، میشه!

یکی دیگه از خطاهای رایج URL خطایی است که submitted URL در عنوان صفحه وجود داره. آگاه باشین که در صورت وجود این URL در عنوان، گوگل به سرعت این خطا رو تشخیص می‌ده و مانع خزش سایت می‌شه. دلیل این امر اینه که شما از یه طرف با این URL دارین می‌گین که می‌خوام این صفحه ایندکس بشه اما گوگل چون داره این خطا رو می‌بینه این اجازه رو صادر نمی‌کنه.

البته وجود پرونده robots.txt در مسدود کردن صفحه یا مارک noindex خوردن صفحه در برچسب متا یا سر تیتر HTTP یعنی HTTP Header هم در ایندکس نشدن صفحه بی تاثیر نیستن.
بنابراین یادتون باشه که تا این خطاها برطرف نشن و بچسب‌ها پاک نشن، خبری از خزش و ایندکس سایت شما توسط گوگل نیست.

همچنین نوع دیگه ای از خطاهای URL هست که ممکنه یه خطای DNS یا خطای سرور برای اون URL خاص باشه. پس URL رو باید دوباره بررسی کنین و ببینین که آیا خطا از بین رفته یا نه. همونطور که قبلاً هم گفتیم، برای رفع این خطاها میشه از ابزار Fetch Google استفاده کنین و اونها رو در کنسول جستجوی گوگل رفع کنین.

علاوه برای این خطاهای URL از Crawl Error ، ما یه سری خطای URL خاصی هم داریم که شامل موارد زیر هستن:

  • خطاهای URL خاص تلفن همراه. این خطای URL به خطای کراول در صفحات خاصی برمی‌گرده که در گوشی‌های هوشمند اتفاق میفتن.
  • خطاهای بد افزار Melware) Malicious software). این خطا وقتی رخ می‌ده که Bing یا Google با بدافزاری در URL مواجه بشه.
  • خطاهای اخبار گوگل. یه سری خطای Google News وجود دارن که در واقع خطرات احتمالی هستن و ممکنه شما وقتی در Google News هستین با این نوع از ارور خزش مواجه بشین.

امیدواریم که با این مقاله تونسته باشیم کمک کنیم تا خطای کراول رو بهتر بشناسین و برای رفع اونها قدمی بردارین.

یادتون باشه که خطای خزش رو بدون رفع کردن رها نکنین. چون شانس خزش و ایندکس شدن سایت و صفحات خودتون رو از دست می‌دین و کم کم سایت شما از دور رقابت کنسول جستجوی گوگل خارج می‌شه. پس باید حسابی مواظب ارور خزش سایت و صفحات خود باشین.

منتظر نظرات و سوالات شما درباره خطای کروال هستیم.