اگر مدیر وب سایت یا توسعه دهنده وب سایت باشید، تمام سعی شما این است که سایت شما در نتایج جستجو دیده شود. برای اینکه در نتایج جستجو نشان داده شود، به وب سایت و صفحات وب مختلف آن که توسط ربات های موتور جستجو خزیده شده و ایندکس (بیشتر بدانید درباره علت ایندکس نشدن سایت) شده اند، نیاز دارید. در ادامه مقاله درباره نحوه شناساندن صفحات به ربات های موتور جستجو از طریق اضافه کردن نقشه سایت به فایل Robots.txt را آموزش خواهیم داد.

دو فایل مختلف در قسمت فنی وب سایت وجود دارد که به این ربات ها کمک می کند تا آنچه را که لازم دارند پیدا کنند:

  • Robots.txt
  • و نقشه سایت  XML

Robots.txt

فایلRobots.txt  یک فایل متنی ساده است که در فهرست اصلی سایت شما قرار دارد. این پرونده در وب سایت شما است که به این ربات های موتور جستجو می گوید، چه چیزی می توانند خزیده شوند و چه چیزی در سایت شما خزیده نیست. همچنین حاوی دستوراتی است که توصیف می کند ربات های موتور جستجو مجاز به خزیدن هستند و کدام ها نیستند.

معمولاً ربات های جستجو به محض وارد شدن در یک وب سایت، به دنبال فایل robots.txt آن هستند. بنابراین در وهله اول، داشتن پرونده robots.txt قابل توجه است. حتی اگر می خواهید تمام صفحات جستجو در تمام صفحه های موجود در سایت شما توسط ربات های موتور جستجو بررسی شوند، حضور یک فایل robots.txt پیش فرض که اجازه این کار را می دهد، امری ضروری است.

Robots.txt همچنین حاوی اطلاعات مهم دیگری همچون نقشه سایت است. در این پست می خواهیم به توضیح این ویژگی بسیار مهم robots.txt یعنی همان قرار دادن نقشه سایت در فایل Robots.txt بپردازیم. اما قبل از آن، ببینیم نقشه سایت چیست و چرا اهمیت دارد.

نقشه سایت XML

نقشه سایت یک فایل XML است که لیستی از کلیه صفحات وب سایت را در خود جای داده است. همچنین ممکن است حاوی اطلاعات تکمیلی در مورد هر URL به صورت داده های متا باشد و درست مثل robots.txt، نقشه سایت ضروری است. این فایل به کاوش، خزیدن و ایندکس کردن تمام صفحات وب یک سایت توسط ربات های موتور جستجو کمک می کند.

ارتباط robots.txt و نقشه سایت چیست؟

در سال ۲۰۰۶، یاهو، مایکروسافت و Google برای حمایت از پروتکل استاندارد ارسال صفحات به یک سایت از طریق نقشه سایت متحد شدند. شما نیاز به ارسال نقشه سایت خود از طریق ابزارهای وبمستر گوگل، ابزارهای وبمستر بینگ و یاهو دارید، در حالی که برخی موتورهای جستجوگر دیگر مانند DuckDuckGoGo از نتایج Bing / Yahoo استفاده می کنند.

پس از گذشت حدود شش ماه، در آوریل ۲۰۰۷، آن ها در پشتیبانی از سیستم یافتن نقشه سایت از طریق robots.txt به نام autodiscovery پیوستند. این بدان معناست که حتی اگر نقشه سایت را به موتورهای جستجوی شخصی ارسال نکردید، خوب است آن ها ابتدا نقشه سایت را از پرونده robots.txt سایت شما بیابند.

از این رو، فایل robots.txt برای وب مسترها حتی بیشتر مورد توجه قرار گرفت، زیرا آن ها به راحتی می توانند راهی برای روبات های موتور جستجو باشند تا بتوانند تمام صفحات موجود در وب سایت خود را کشف کنند.

فایل Robots.txt

چگونه می توان فایل Robots.txt را با موقعیت سایت مپ ایجاد کرد؟

در اینجا سه مرحله ساده برای ایجاد پرونده robots.txt با موقعیت نقشه سایت آورده شده است:

مرحله شماره ۱: آدرس url نقشه سایت خود را پیدا کنید

اگر وب سایت شما توسط یک توسعه دهنده شخص ثالث ایجاد شده است، ابتدا باید بررسی کنید که آیا آن ها نقشه سایت را ارائه داده اند یا خیر. نشانی اینترنتی نقشه سایت شما معمولاً به این صورت است: http://www.example.com/sitemap.xml

بنابراین این URL را به جای “مثال” در مرورگر خود با دامنه خود تایپ کنید.

همچنین می توانید نقشه سایت خود را از طریق جستجوی Google با استفاده از اپراتورهای جستجو مانند در مثال های زیر پیدا کنید:

سایت: example.com filetype: xml

یا

filetype: xml site: shembull.com inurl: sitemap

اما این تنها در صورتی کار می کند که سایت شما قبلاً توسط Google موردنظر ایندکس شده باشد.

اگر نقشه سایت را در وب سایت خود پیدا نکردید، می توانید با استفاده از پروتکل توضیح داده شده در Sitemaps.org، XML نقشه سایت خود را ایجاد کنید.

مرحله شماره ۲: فایل Robots.txt خود را پیدا کنید

با تایپ domain.com/robots.txt می توانید بررسی کنید که آیا سایت شما دارای پرونده robots.txt است.

اگر پرونده robots.txt ندارید، مجبور خواهید بود که آن را ایجاد کنید و آن را به روت (root directory) سرور وب خود اضافه کنید. البته به دسترسی سرور وب خود نیاز دارید. معمولاً در همان مکان قرار دارد که “index.html” اصلی سایت شما نهفته است. مکان این فایل ها بستگی به نوع نرم افزار وب سرور شما دارد. اگر با این فایل ها آشنا نیستید، باید از یک توسعه دهنده وب استفاده کنید.

فقط به یاد داشته باشید از نام پرونده ای که حاوی محتوای robots.txt شما است استفاده کنید. از Robots.TXT یا Robots.Txt به عنوان نام پرونده خود استفاده نکنید.

مرحله شماره ۳: مکان نقشه سایت را به پرونده Robots.txt اضافه کنید

اکنون، robots.txt را در ریشه سایت خود باز کنید. برای این کار مجدداً به سرور وب خود دسترسی دارید. بنابراین، اگر نمی دانید چگونه فایل robots.txt سایت خود را پیدا کرده و باز کنید، از یک توسعه دهنده وب بخواهید که این کار را برای شما انجام دهد.

در ادامه کافی است که یک دستورالعمل با URL در robots.txt خود قرار دهید.


            Sitemap: http://www.example.com/sitemap.xml
                            

بنابراین ، فایل robots.txt مانند این است:


            Sitemap: http://www.example.com/sitemap.xml
User-agent:*
Disallow: