خلاصة:
وبکاوی اشاره به کلیه فعالیتهای دادهکاوی و فنون وابسته دارد که برای کشف خودکار واستخراج دانش از اسناد و خدمات وب به کار میروند.در پس منابع عظیم اطلاعاتی وبگاهها اطلاعات ساختاری و دادههای موجود در وب و سرورهای آن دانشی نهفته است که دسترسی به آن در حالت عادی کاری دشوار است ضمن آنکه دانش برای کاربران،مدیران و ادارهکنندگان محیط وب بسیار مفید است.وبکاوی و فنون وابسته به آن امکان کشف و شناسایی این دانش پنهان را میسر ساختهاند.بر حسب انواع کارکردها،وبکاوی شامل سه روش است که عبارتند از:کاوش محتوای وب،کاوش ساختار وب، کاوش کاربرد وب،در این نوشته علاوه بر معرفی وبکاوی و دادهکاوی که پایه وبکاوی است،به تفصیل در مورد انواع روشهای وبکاوی صحبت میشود.
ملخص الجهاز:
"با در نظر گرفتن اهمیت منابع اطلاعاتی موجود در اینترنت برای کسب اطلاعات در عصر حاضر،و ارائه بهترین و مناسبترین اطلاعات و صفحات مورد درخواست کاربران،توجه اکثر کارشناسان و مهندسان وب به توسعه روشهای خودکار و هوشمند کاوش در وب جلب شده است؛به این ترتیب مبحث«وب کاوی2» مطرح و مورد توجه قرار گرفت.
وبکاوی وبکاوی اشاره به کلیه فعالیتهای دادهکاوی و فنون وابسته دارد که برای کشف خودکار و استخراج دانش از اسناد و خدمات وب به کار میروند(ول؛رویاکرز3،4002،ص 921)،اطلاعات بسیار زیاد و ناهمگونی در محیط وب وجود دارد که سبب میشود کسب دانش موجود در محتوای صفحات وب مشکلتر شود،بنابراین در چنین محیطی به کارگیری ابزارها و فنون دادهکاوی برای کشف اطلاعات و دانش مرتبط ضروری است(سالاری ب،3831،ص 3).
کاوش محتوای وب کشف دانش از محتوا،فایلها و پروندههای موجود در وب که شامل صوت،تصویر،متن و دیگر انواع چند رسانهای میشود یا کشف اطلاعات مفید از مستندات و دادههای ساختاریافته و نیمه ساختاریافته و غیر ساختاریافته وب را کاوش محتوای وب مینامند هر چند در یک سند وب ممکن است انواع مختلفی از دادهها مانند متن،فایلهای صوتی و تصویری و...
آیا میتوانیم گروههای خاصی از کاربران را هدف قرار داده و محتوای وب را برای آنها شخصیسازی کنیم؟ پاسخ به این سؤالات میتواند از طریق تحلیل دادهها در فایلهای ثبت وقایع53ذخیره شده در سرورهای وب صورت پذیرد.
برای اینکه از اضافه بار در سرورها کاسته شود باید فایلهای رفتاری مربوط به کاربران قدیمی از پایگاه داده سرورها حذف شوند و اطلاعات رفتاری کاربران جدید اضافه شود،در غیر این صورت الگهای کشف شده از طریق فنون وبکاوی بیانگر دقیق و درستی از رفتارهای کاربران نیست."