چکیده:
در پژوهش حاضر، عبارتهای کلیدی از متون مقالههای فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونهای که در طول زمان مرتبا به کارایی آن افزوده میشود. استخراج عبارتهای کلیدی میتواند در پهنه گستردهای از مسائل از جمله در طراحی سیستمهای بازیابی اطلاعات، کاربر داشته باشد.هر نظام بازیابی اطلاعات (نرمافزار) دارای یک مبنای خاص برای تجزیه و تحلیل اطلاعات است، که نظام بر اساس آن به تفسیر اطلاعات و مطابقت بین اقلام و درخواستهای اطلاعاتی پرداخته و بدین ترتیب بازیابی اطلاعات صورت میگیرد. این تجزیه و تحلیل «سازماندهی اطلاعات» نامیده میشود. بدون یک سازماندهی بهینه اطلاعات، بازیابی اطلاعات به صورت کامل و دقیق صورت نخواهد گرفت. با توجه به متفاوت بودن سیاستهای بازیابی اطلاعات باید به صورت همزمان امکان استفاده از روشهای خودکار و نیمهخودکار فراهم آورده شود. پیشبینی سیاهه بازدارنده، ایجاد انواع واژهنامهها مانند واژهنامه ریشه لغات، سیاهه پسوندها، واژهنامه عبارات، واژهنامه مفاهیم، برقراری روابط سلسله مراتبی مفاهیم، ریشهیابی واژگان، محاسبه همبستگی و خوشهبندی اطلاعات همگی از امکاناتی هستند که باید در یک نظام بازیابی اطلاعات بهینه وجود داشته باشد. مقاله حاضر، به بررسی این مفاهیم پرداخته است.
خلاصه ماشینی:
برنامه در روشی قابل مقایسه با آنچه توسط انسان خوانده میشود، اطلاعات را مورد پردازش قرار میدهد و از میان کلیه واژگان موجود در مقاله، عبارتهای کلیدی را که نشاندهنده مرتبطترین عبارتها و اطلاعات مقاله میباشند، استخراج میکند.
انجام این کار به صورت خودکار میتواند به عنوان یک استاندارد، نوعی یکدستی و مطابقت نوشته با کارکرد سیستم بازیابی اطلاعات و در نتیجه اطلاعرسانی صحیحتر را به همراه داشته باشد.
تعیین اهمیت واژگان برای تعیین عبارتهایی که میتوانند به عنوان عبارتهای کلیدی متن مورد استفاده قرار گیرند، به یک معیار برای مقایسه و نمرهگذاری محتوای اطلاعاتی مقاله نیاز داریم.
آنچه در مقاله حاضر برای اندازهگیری رتبه اهمیت یک کلمه مناسب تشخیص داده شده و پیشنهاد میشود تعداد رخداد کلمه، مجاورت مکانی این واژگان با یکدیگر و موقعیت مکانی آنها در مقاله نسبت به هم میباشد.
دلیل استفاده از تعداد رخداد برای اندازهگیری رتبه اهمیت، بر این باور استوار است که نویسنده معمولا از واژگان معینی برای پیشبرد، بحث یا تشریح دقیق جنبههای مختلف موضوع موردنظر استفاده و آنها را تکرار میکند.
به همین منظور، علاوه بر اینکه میتوان حد بالایی[13] را برای رخداد واژگان در نظر گرفت، یک سیاهه بازدارنده که قابلیت افزایش و کاهش آن توسط کاربر وجود دارد، در سیستم گنجانده میشود که از این طریق اثر بعضی از واژگان را خنثی و آنها را نادیده گرفت.
در نهایت، عبارتهای کلیدی از میان کلمات با رخداد بالایی که در کنار یکدیگر در سطح مقاله تکرار شدهاند مشخص و با توجه به تکرارشان به هر کدام نمرهای اختصاص داده میشود و کاربر میتواند سیاهه این عبارتها همراه با نمرههای آنها را مشاهده کند.