خلاصة:
با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستمهای خودکار استخراج اطلاعات بیشتر شده است.
از مهمترین روشهای خودکار استخراج اطلاعات. خوشهبندی میباشد. روشهای خوشهبندی زیادی تابهحال
ارائه شده است که اکثرا مبتنی بر مدل برداری میباشند. در این مدل با هر سند مانند مجموعهای از کلمات
برخورد می گردد و توالی کلمات در جمله» نادیده گرفته میشود. ا زآنجایی که معانی در زبان طبیعی بهطور
کامل وابسته به توالی کلمات میباشند نقیصه بزرگی در این روشها احساس می گردد. برای رفع این نقیصه در
این مقاله روشی جدید در خوشهبندی اسناد Html ارائه گردیده است که در آن الگوریتم Stc برای
خوشهبندی Snippet ها لحاظ شدهاست. این روش که با عنوان خوشهبندی بر اساس جملات کلیدی
Ks_Stc مطرح شده برای هر سند بردار وزنداری تهیه میکند و با استفاده از این بردار» جملات کلیدی هر
متن از سند استخراج می گردد و نهایتا این جملات کلیدی برای خوشهبندی به الگوریتم Stc داده میشود.
ملخص الجهاز:
روشی جدید برای خوشه بندی اسناد HTML با استفاده از الگوریتم های تلفیقی مریم شعار علیاصغر سالارنژاد چکیده با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستم های خودکار استخراج اطلاعات بیشتر شده است .
برای رفع این نقیصه در این مقاله روشـی جدیـد در خوشـه بنـدی اسـناد Html ارائـه گردیـده اسـت کـه در آن الگـوریتم Stc بـرای خوشه بندی Snippetها لحاظ شده است .
این روش کـه بـا عنـوان خوشـه بنـدی بـر اسـاس جمـلات کلیـدی Ks_Stc مطرح شده برای هر سند بردار وزن داری تهیه میکند و با استفاده از این بردار، جملات کلیـدی هـر متن از سند استخراج میگردد و نهایتا این جملات کلیدی برای خوشه بندی به الگوریتم Stc داده میشود.
متـون سـاخت یافتـه شامل پایگاه های داده متنی و یا اسـناد متنـی مـیگـردد کـه اسـتاندارد معینـی در سـاختار آن هـا رعایت شده است و معمولا استخراج اطلاعات از آن ها با کمک این ساختار معـین بـه سـهولت انجام میشود.
Zhuang & Chen سیستم های استخراج اطلاعات از اسناد HTML در سال های اخیر تلاش های زیـادی در زمینـه اسـتخراج اطلاعـات از وب جهـانی انجـام گرفتـه است .
Ashraf & Zyer گوپتا و گارگ ١ (٢٠١٦) الگوریتمی به نام "شاخصـه هـای وزن دهـی شـده K_means" ارائـه دادند که در آن مجموعه داده هـای اسـتاندارد را پـس از پـیش پـردازش بـا جداسـازی کلمـات موجود در سند و حذف عبارات ایستا برای خوشه بندی آماده سازی مـینماینـد.
(رجوع شود به تصویر صفحه) در تست دوم الگوریتم Ks_Stc ازلحـاظ معیـار F_Measure بـا سـه الگـوریتم متـداول خوشه بندی اسناد مقایسه میگردد و نتایج در شکل (٦) ارائه شده اسـت .