چکیده:
همانند بسیاری از زمینههای زبانشناسی محاسباتی، ارزیابی نقش مهمی در سیستمهای پرسش و پاسخ تعاملی ایفا میکند. یکی از معیارهایی که در زمینه ارزیابی این سیستمها دارای اهمیت است، میزان انسجام بین سؤالها و پاسخهای ردوبدل شده بین کاربر و سیستم است. در این مقاله، یک راه حل اتوماتیک برای تعیین میزان انسجام متن تولیدشده ارائه شده است. مدل پیشنهادی، یک مدل احتمالاتی است که در آن برای استخراج ویژگی از میزان شباهت بین N-گرمهای مختلف بر اساس چهار معیار تعریفشده بهره گرفته شده است. سپس، با استفاده از تخمین بهترین تابع چگالی از بین 18 تابع در نظر گرفتهشده برای هر ویژگی، یک مدل برای تعیین میزان انسجام انتخاب گردیده است. نتایج پیادهسازی بر روی دو پایگاه داده تهیهشده از چند سیستم پرسش و پاسخ تعاملی، حاکی از انطباق بسیار بالای مدل احتمالاتی پیشنهادی و دقت مناسب آن در تعیین میزان انسجام در متن مکالمه صورتگرفته است. برای تطبیق یا عدم تطبیق تابع چگالی احتمال بهدستآمده از آزمونهای سهگانه «کولموگروف-اسمیرنف»، «اندرسون دارلینگ» و «کرامر وانمیس» استفاده شد. با توجه به نتایج ارائهشده، تابع چگالی احتمال «ناکاگامی» با داشتن کمترین اشتباه، بهترین عملکرد را در تعیین میزان انسجام هر مکالمه از خود نشان داد.
Evaluation plays an important role in interactive question answering systems like many computational linguistics fields. The coherence between the questions and the answers exchanged between the user and the system is one of the important criteria in evaluating these systems. In this paper, a new approach to determine the degree of coherence of generated text by the IQA systems is presented. The proposed model is a probabilistic model in which for feature extraction, the similarity between different N-grams is derived based on four defined criteria. Then using a prediction of the best density function among the 18 functions considered for each feature, a model for determining the coherence is selected. The results of implementation on two databases provided by several interactive question answering systems indicate that the proposed probabilistic model is highly adapted and its accuracy in determining the degree of coherence in the conversation text has been made. The Kolmogorov-Smirnov, Anderson, Darling and Cramer van Meys trials were used to matching or non-matching probability density function. According to the presented results, the probability density factor with the least error was the best performance in determining the coherence of each conversation.