چکیده:
امروزه، به دلیل افزایش حجم اطلاعات درباره موضوعات مختلف، سامانه های استخراج اطلاعات از اهمیت خاصی برخوردارند، اما از آن مهمتر سامانه ای است که بتواند یا خلاصه ای از مجموعه اطلاعات بازیابی شده را به کاربر ارایه دهد. این مقاله، رهیافتی در زمینه تولید خلاصه از چندین نوشتار ارایه می کند، به طوری که بتوان با استفاده از اطلاعات چندمقاله یا متن و استخراج نکات مهم آن و برقراری ارتباط بین آنها، به یک واحد از میان آنها رسید و آن را در اختیار استفاده کننده قرار داد. یک سامانه خلاصه ساز چند نوشتاری، متفاوت از خلاصه ساز تک نوشتاری است و این تفاوت به عواملی از قبیل فشردگی، سرعت، عدم تکرار، خوانایی و مرتبط بودن جملات خلاصه تولیدی با یکدیگر مربوط است. هدف این مقاله ارایه الگو برای ایجاد چنین سامانه ای می باشد.
خلاصه ماشینی:
"این مقاله،رهیافتی در زمینه تولید خلاصه از چندین نوشتار ارائه میکند،به طوری که بتوان با استفاده از اطلاعات چند مقاله یا متن و استخراج نکات مهم آن و برقراری ارتباط بین آنها،به یک چکیده واحد از میان آنها رسید و آن را در اختیار استفاده کننده قرار داد.
در صورتی که چکیده از چند نوشتار باشد با توجه به توضیحاتی که در مقدمه داده شد اضافاتی دارد که ارائه میگردد: خلاصهای از چند نوشتار،اشتقاقی خوانا از منابع است که برای هر یک از نوشتارها جداگانه تهیه و به وسیله انتخاب و/یا تعمیم نکات مهم آن،فشرده شده است و سپس عبارات مشابه آن خوشهبندی (clustering) گردیدهاند.
بنا بر این از این تعریف نتیجه میگیریم که یک چکیده چند نوشتاری باید دارای مشخصات ذیل باشد: الف)خوشهبندی؛ب)پوشش؛ج)عدم تکرار؛د)مرتبط بودن جملات در خلاصه؛ه)کیفیت؛و)قابلیت تشخیص ناسازگاریها در نوشتارها؛ز)بهنگام کردن خلاصه برای متونی که بعد زمانی دارند و ح)نرمافزار محاورهای (interactive software) مناسب و کارآمد که بتوان از هر جمله به اصل مقاله یا مقالات رسید و برعکس.
سپس به کمک معیارهای خاص عمل رتبهبندی آنها انجام میپذیرد و خوشهها پشت سرهم با یک شماره ترتیبی قرار میگیرند تا چسبندگی و خوانائی متن حفظ گردد و نیز اطلاعات تکراری نداشته باشد و نهایتا خلاصه چند شکل 1:سازمان سامانه چکیدهساز چندنوشتاری پیشنهادی نوشتاری به دست میآید(مارکو و گربر،2001).
سپس از روی درخت کلام (discourse tree) تولید شده که عبارات داخل کلام،برگهای آن میباشند به هر یک امتیاز میدهد،به طوری که عبارتی که به ریشه نزدیکتر باشد به دلیل تازگی ارزش بیشتری دارد و از اهمیت اطلاعاتی بیشتری برای قرار گرفتن در چکیده برخوردار خواهد بود(جورافسکی و مارتین،2000)."