چکیده:
ﺧﻼﺻﻪ ﺳﺎزی ﻣﺘﻦ، ﻣﺘﻦ ﮐﻮﺗﺎﻫﺘﺮی را از ﻣﺘﻦ اﺻﻠﯽ اﯾﺠﺎد ﻣﯽ ﮐﻨﺪ در ﺣﺎﻟﯿﮑﻪ اﻃﻼﻋﺎت و ﻣﻌﻨﺎی ﮐﻠﯽ ﺣﻔﻆ ﻣﯽ ﺷﻮد. اﺧﯿﺮا ﻧﯿﺎز ﺑﻪ ﺧﻼﺻﻪ ﺳﺎزی ﺧﻮدﮐﺎر ﻣﺘﻦ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ رﺷﺪ ﺳﺮﯾﻊ اﻃﻼﻋﺎت اﯾﻨﺘﺮﻧﺖ اﻓﺰاﯾﺶ ﯾﺎﻓﺘﻪ اﺳﺖ. ﺧﻼﺻﻪ ﺳﺎزی ﺧﻮدﮐﺎر ﻣﺘﻦ، ﯾﮏ روش ﮐﺎرﺑﺮدی اﺳﺖ زﯾﺮا ﺑﺎﻋﺚ ﮐﺎﻫﺶ ﺣﺠﻢ و اﻓﺰاﯾﺶ ﺳﺮﻋﺖ دﺳﺘﺮﺳﯽ ﻣﯽﺷﻮد. ﺟﻬﺖ اﯾﺠﺎد ﺧﻼﺻﻪ ﺑﺮای ﯾﮏ ﺳﻨﺪ و ﯾﺎ ﭼﻨﺪ ﺳﻨﺪ، دو روش وﺟﻮد دارد: ﻣﺴﺘﺨﺮج و ﭼﮑﯿﺪه ای )1(. روش ﺧﻼﺻﻪ ﺳﺎزی اﺳﺘﺨﺮاﺟﯽ ﺷﺎﻣﻞ اﻧﺘﺨﺎب ﺟﻤﻼت ﻣﻬﻢ و ﯾﺎ ﭘﺎراﮔﺮاف و اﻟﺤﺎق آﻧﻬﺎ ﺑﻪ ﻣﺘﻦ ﻫﺎی ﮐﻮﺗﺎه ﺗﺮ اﺳﺖ. اﻣﺎ ﺧﻼﺻﻪ ﺳﺎزی ﭼﮑﯿﺪه ای، ﺷﺎﻣﻞ درک ﻣﺘﻦ اﺻﻠﯽ و دوﺑﺎره ﻓﺮﻣﻮﻟﻪ ﮐﺮدن آن در ﻣﺘﻦ ﮐﻮﺗﺎه ﺗﺮ اﺳﺖ. در اﯾﻦ ﻣﻘﺎﻟﻪ اﺑﺘﺪا ﺑﻪ ﺑﺮرﺳﯽ ﮐﻮﺗﺎﻫﺴﺎزی وﻣﻔﺎﻫﯿﻢ ﺧﻼﺻﻪ ﺳﺎزی ﭘﺮداﺧﺘﻪ، ﺳﭙﺲ ﺑﻪ ﺑﺮرﺳﯽ ﻋﻤﻠﮑﺮد اﻟﮕﻮرﯾﺘﻢ ﻫﺎی Rank ﮐﻨﻨﺪه ﺟﻤﻼت در ﺧﻼﺻﻪ ﺳﺎزی ﻣﺘﻦ ﻣﯽﭘﺮدازﯾﻢ. در اﯾﻦ روش ﺑﺎ ﺑﻪ ﮐﺎرﮔﯿﺮی ﻧﺮم اﻓﺰارWordNet ﻧﺸﺎن ﻣﯽ دﻫﯿﻢ ﮐﻪ ﮐﯿﻔﯿﺖ ﺧﻼﺻﻪ ﻫﺎی رﺗﺒﻪ ﺑﻨﺪی ﺷﺪه ﺑﻬﺒﻮد ﯾﺎﻓﺘﻪ اﺳﺖ. ﻣﺎ ﺳﯿﺴﺘﻢ ﺧﻮد را ﺑﺮ روی ﻣﺠﻤﻮﻋﻪ داده DUC2007 ﺑﺮرﺳﯽ ﻧﻤﻮدﯾﻢ و ﺑﺮای ارزﯾﺎﺑﯽ ﻧﯿﺰ از ﻣﻌﯿﺎر ROUGE اﺳﺘﻔﺎده ﺷﺪه اﺳﺖ ﻧﺘﺎﯾﺞ آزﻣﺎﯾﺶ ﻫﺎ ﻧﺸﺎن ﻣﯽ دﻫﺪ ﮐﻪ ﺳﯿﺴﺘﻢ ﭘﯿﺸﻨﻬﺎدی در ﻣﻌﯿﺎر ارزﯾﺎﺑﯽ 2_ROUGE و ﺑﺮ روی داده ﻫﺎی DUC2007 ﺣﺪاﻗﻞ ﺑﻪ ﻣﯿﺰان 4 .3 درﺻﺪ و در ﻣﻌﯿﺎر ROUGE_SU4 ﺣﺪاﻗﻞ ﺑﻪ ﻣﯿﺰان 74 .2 درﺻﺪ ﺑﻬﺒﻮد داﺷﺘﻪ اﺳﺖ. ﻫﻤﭽﻨﯿﻦ ﺑﺎ ﺑﺮرﺳﯽ و ارزﯾﺎﺑﯽ ﻧﺘﺎﯾﺞ ROUGE اﯾﻨﮕﻮﻧﻪ اﺳﺘﻨﺒﺎط ﻣﯽﺷﻮد ﮐﻪ ﺳﯿﺴﺘﻢ ﭘﯿﺸﻨﻬﺎدی ﻗﺎﺑﻠﯿﺖ ﻣﻘﺎﯾﺴﻪ ﺑﺎ ﺳﯿﺴﺘﻢﻫﺎی ﺷﺮﮐﺖ ﮐﻨﻨﺪه در DUC2007 را دارد. در ﻣﺪل ﭘﯿﺸﻨﻬﺎدی ﻗﺼﺪ دارﯾﻢ اﺑﺘﺪا ﯾﮏ روش ﺑﺮای ﮐﺎﻫﺶ ﺟﻤﻼت اراﺋﻪ ﮐﻨﯿﻢ ﺳﭙﺲ از راﻫﮑﺎر ﮐﺎﻫﺶ ﺟﻤﻠﻪ ﺑﺮای ﺗﻌﯿﯿﻦ ﻣﯿﺰان ﺷﺒﺎﻫﺖ ﺑﯿﻦ ﺟﻤﻼت ﭘﺮدازش ﺷﺪه اﺳﺘﻔﺎده ﮐﻨﯿﻢ. ﻫﺪف از اﻧﺠﺎم اﯾﻦ ﻣﻘﺎﻟﻪ ﺑﻬﺒﻮد دﻗﺖ در ﺗﺸﺨﯿﺺ ﺷﺒﺎﻫﺖ ﺑﯿﻦ ﺟﻤﻼت ﻣﺘﻦ ﻣﯽ ﺑﺎﺷﺪ.
خلاصه ماشینی:
روش خلاصه سازی استخراجی شامل انتخاب جملات مهم و یا پاراگراف و الحاق آنها به متن های کوتاه تر است.
در این روش با به کارگیری نرم افزار WordNet نشان می دهیم که کیفیت خلاصه های رتبه بندی شده بهبود یافته است.
ما سیستم خود را بر روی مجموعه داده DUC2007 بررسی نمودیم و برای ارزیابی نیز از معیار ROUGE استفاده شده است.
این سیستم برای محاسبه رتبه گرههای (به عنوان مثال جملات) گراف در خلاصه سازی عمومی استفاده میشود.
کوتاه سازی جملات در مرحله قبل مشخص گردید مجموعه اسناد ما شامل 45 موضوع بوده که هر موضوع خود شامل 25 فایل می باشد در روش های قبلی برای مراحل بعدی خلاصه سازی از همین داده های اولیه استفاده شده است اما در روش پیشنهادی ما در این مرحله اقدام به کوتاه سازی تمامی جملات به منظور خلاصه سازی متن مینماییم که خود باعث کاهش طول جملات میگردد و در مراحل بعدی به جای جملات اصلی بر روی جملات کوتاه شده پردازش های لازم صورت میپذیرد.
در جدول (4) نتایج ارزیابی سیستم پیشنهادی (کوتاه سازی جملات و استفاده از Wordnet جهت افزایش دایره لغات و بهبود الگوریتم T-LexRank)، با الگوریتم استاندارد T-LexRank در مجموعه اسناد DUC2007 است.
در این مقاله، روش پیشنهادی با کوتاهسازی جملات و اضافه کردن مترادف کلمات اسناد به دایره لغات، باعث امتیازدهی مناسب تر جملات، افزایش کیفیت خلاصه و در نهایت بهبود نتایج سیستم خلاصه شده است.
نتایج شبیه سازی نشان داده است که سیستم پیشنهادی در معیار ارزیابی ROUGE-2 و بر روی داده های DUC2007 حداقل 3.