چکیده:
وب به عنوان بستر فعالیت موتورهای جستجو، ساختاری نموداری دارد. این ساختار حرکت خزندهها در موتورهای جستجو را به روشهایی منطبق بر خود محدود میسازد. مقاله حاضر، به بررسی تأثیر ساختار وب بر چگونگی حرکت خزندهها و فعالیت نمایه سازها در موتورهای جستجو می پردازد. پس از بحثی مقدماتی در باب نمودارهای جهتدار و فرایند کار خزنده، عمدهترین روشهای حرکت خزنده در سطح وب شامل حرکت «عمق ـ شروع»، «توزیع ـ شروع» و «بهترین ـ شروع» مطرح شده و سپس واحد سازهیابی و چگونگی تشکیل درختهای سازهیابی از قالب HTML مورد بررسی قرار خواهد گرفت.
خلاصه ماشینی:
حجم عظیم صفحات و اطلاعات موجود در وب و لزوم وجود ابزارهایی جهت سازماندهی دست کم گوشهای از این مجموعه تاکنون به حد کفایت مورد بحث قرار گرفته است و اینکه موتورهای جستجو با تمام کاستیهای خود از عمدهترین ابزارهای دسترسی به محتوای مدارک پیش گفته هستند، اصلی پذیرفته شده میان بسیاری از کاربران اینترنتی است.
آنچه نهایتا در پایگاه ذخیره میشود در واقع حاصل فرایند نمایهسازی است که تحت قالب تعریف شده در الگوریتم موتور جستجو به صورت واژگان و عبارات مختل پایگاه نمایه واحد کار واحد جداسازی لینکها نمایهساز واحد کنترل گردآورنده وب ف در آمده است (Cothey, 2004).
حرکت عمق ـ شروع در این حرکت، واحد کنترل خزنده یک صفحه را به عنوان صفحه هسته برای گردآورنده مشخص میسازد.
0 7 1 3 2 5 6 4 Seed از آنجا که تقریبا تمام صفحههای وب لینکهایی به سایر صفحات برقرار میکنند، چنانچه سطح عمق برای واحد کنترل تعریف شده نباشد، حرکت به عمق آن قدر ادامه خواهد یافت که به مرور زمان، عملا پایگاه نمایه موتور جستجو را از مطالب بی کیفیت خواهد انباشت.
به عنوان نمونه، ترتیب حرکت گردآورنده تحت نظارت واحد کنترل و با استفاده از الگوریتم توزیع ـ شروع در صفحه های مختلف مانند تصویر شماره 5 خواهد بود.
در حرکت عمق ـ شروع، با انتخاب هر لینک و رفتن به صفحه بعدی و ادامه این کار، یک مطلب خاص (حوزه موضوعی مربوط به سطح عمق اول حرکت) به صورت اختصاصی دنبال شده و از آنجا که گرایش واحد کنترل نسبت به حرکت عمقی گردآورنده بیشتر از حرکت در سطح است، در نهایت صفحاتی که برای نمایهساز فرستاده می شوند به احتمال، اغلب حول یک مطلب یا موضوع خواهند بود.
"Web Search Technology".