چکیده:
هدف: پژوهش حاضر با هدف سنجش میزان تکرار اطلاعات بازیابیشدۀ فارسی در وب و مقایسۀ موتورهای کاوش از لحاظ میزان توانمندی در بازیابی کمترین تکرار در محتوای نتایج انجام گرفت. روش: این پژوهش، از دستۀ مطالعات توصیفی است که از روشهای کمی و آمار توصیفی بهره میگیرد و با توجه به مقایسه و ارزیابی موتورهای کاوش، در زمرۀ تحقیقات ارزیابی نظامهای بازیابی اطلاعات نیز محسوب میشود. یافتهها: یافتهها نشان داد که موضوعاتی همچون حقوق، جغرافیا و ادبیات با بیش از 70 درصد تکرار در هر موتور کاوش، بیشترین میزان را در بازیابی نتایج دارای محتوای تکراری دارند. موتور کاوش گوگل با بازیابی تنها 8/42 درصد کمترین میزان و موتور کاوش بینگ با بازیابی 33/58 درصد، بیشترین میزان را در بازیابی نتایج دارای محتوای تکراری داشتند.
خلاصه ماشینی:
بنابراين در اين پژوهش قصد داريم که به اين جنبه از مسئله ، يعني وجـود تکرار در بازيابي اطلاعات فارسي در وب بپردازيم و با مقايسۀ عملکرد چند موتور کاوش عمـومي پراستفاده ، کارآمدترين آنها را از لحاظ بازيابي کمترين اطلاعات تکراري در حوزه هاي موضوعي علوم انساني معرفي کنيم ، علاوه بر اين تلاش خواهـد شـد کـه تـا حـد امکـان بـا مشـخص کـردن خاستگاه اصلي اطلاعات ، سايت هاي حاوي اطلاعات دست اول (منظور اطلاعاتي اسـت کـه بـراي اولين بار توسط شخص يا سازمان خاصي توليد و در اينترنت عرضه شده ند) از سـايت هـاي حـاوي اطلاعات تکراري و غيرمعتبر تميز داده شود.
اهداف پژوهش هدف اصلي پژوهش ، سنجش ميزان تکرار اطلاعات بازيابيشدة فارسي در حـوزه هـاي موضـوعي علوم انساني در وب و معرفي بهتـرين موتـور کـاوش از لحـاظ کمتـرين تکـرار در محتـواي نتـايج بازيابي شده با شناسايي سايت هاي مرجع يا حاوي مطالب تکراري تا حد امکان اسـت .
سپس کليدواژه هاي مربـوط بـه هـر حـوزة موضوعي براي سنجش ميزان تکرار و مقايسۀ موتورها از لحاظ ميزان توانمندي در بازيابي کمترين نتايج تکراري، به هر کدام از سه موتور کاوش داده شـد و ٢٠ نتيجـۀ اول هـر جسـت وجـو بررسـي شدند و در نهايت در مرحلۀ سوم براي دستيابي به بيشترين نتايج تکراري و شناسايي سايت هايي که مطالب سايت هاي ديگر را تکرار کرده اند و همين طور سايت هـاي مرجـع (يعنـي سـايت هـايي کـه مطالبشان کپي برداري از سايت هاي ديگر نبود) از جست وجوي جمله اي استفاده شد.
Search engines for the World Wide Web: a comparative study and evaluation methodology.