خلاصة:
درک زبان محاوره حوزۀ خاصی از درک زبان طبیعی را شامل میشود که در آن جملات بیانشده توسط کاربر به اندازۀ جملات زبان نوشتاری تابع دستور زبان نیستند. در این مقاله، سامانه محاورۀ مبتنی بر متن برای استخراج معنای جملات محاورهای مربوط به حوزۀ ذخیره بلیت معرفی میشود. در طراحی این سامانه از شیوههای مبتنی بر داده استفاده شده است. معماری آن شامل دو بخش اصلی استخراج متغیرها و انتساب محتملترین برچسبهای معنایی به دنبالهای از کلمات است. برای این کار از الگوی مخفی مارکوف استفاده میشود. برچسبزنی معنایی دنبالۀ کلمات با استفاده از الگوریتم ویتربی صورت میگیرد. بدین منظور، ابتدا پیکرهای از جملاتِ مورد استفاده در حوزۀ ذخیره بلیت جمعآوری و سپس به هر کلمه یا ترکیبی از کلمات یک برچسب معنایی تخصیص داده میشود. در مرحلۀ آموزش با استفاده از پیکرۀ برچسبخورده، دنبالۀ برچسبهای ممکن برای توالی کلمات مختلف یاد گرفته میشود. در مرحلۀ آزمون با استفاده از احتمالات استخراجشده از مرحلۀ آموزش، محتملترین برچسب معنایی برای هر کلمه یا ترکیبی از کلمات پیدا میشود. بر اساس آزمایشهای انجامشده، دقت سامانه پیشنهادی در تشخیص سه برچسب کلیدیِ مبدأ، مقصد و تاریخ 91 درصد است.
Spoken language understanding is considered as a specific domain of natural language understanding in which the uttered sentences are not as well-formed as written sentences. In the present paper, a text-based system of spoken language understanding is introduced for ticket reservation domain. This system is developed according to the data-driven approach and its architecture includes two main parts: first, extracting parameters of the model and second, assigning the most likely semantic tags to the sequence of words. "Hidden Markov Model" and "Viterbi" algorithm are applied in order to train the parameters and to tag the sequence of words. For this purpose, a corpus of commonly-used sentences in ticket reservation domain is collected and a specific tag is assigned to each word or a combination of words. In the training step, by using the tagged corpus, a sequence of possible tags is learned for a sequence of various words and in the testing step the most likely tag is assigned to a word or a combination of words according to the probabilities calculated in the previous step. Evaluation of the accuracy of system in recognizing the three key tags of departure, arrival and date is 91%.
ملخص الجهاز:
در اين مقاله ، سامانه محاورة مبتني بر متن ٣ براي استخراج معناي جملات محاوره اي مربوط به حوزة ذخيره بليت معرفي مي شود.
1- Natural Language Processing 2- Understanding 3- Spoken Dialogue System 4- Speech Recognition 5- Language Understanding System 6- Dialogue Management 7- Natural Language Generation 8- Speech Synthesis System 9- Information Retrieval 10- Machine Translation شکل ١- شماي کلي از سامانه محاورة گفتاري و زيرسامانه هاي تشکيل دهندة آن در سامانه هاي محاورة مبتني بر متن ، جملات نوشته شده توسط کاربر ابتدا تحليل معنايي ، سپس معناي مورد نظر از جمله استخراج و با توجه به آن معنا، پاسخ مناسبي توليد مي شود.
در اين مقاله سامانه درک معناي مبتني بر متن براي درک معناي جملات محاورهاي در حوزة ذخيره بليت ارائه مي شود که در آن ورودي به صورت متن از کاربر دريافت مي شود و بعد از تحليل معنايي ، کلمات کليدي يعني کلمات مربوط به مبدأ، مقصد و تاريخ ، تشخيص و برچسب گذاري مي شوند.
بنابر اين ، در اين تحقيق از روشهاي مبتني بر داده و به طور خاص از الگوي مخفي مارکوف براي برچسب گذاري معنايي استفاده شده است .
سامانه درک معناي مبتني بر داده به دادة آموزشي برچسب خورده نياز دارد تا بتواند به طور خودکار از جملات موجود در دادة آموزشي با برچسب هاي معنايي معادلشان عمل استخراج معنا را ياد بگيرد.
براي استخراج معنا در اين روش از الگوي مخفي مارکوف استفاده شده است که حالات آن برچسب هاي معنايي مانند برچسب زمان، مبدأ، مقصد و غيره بود و مشاهدات آن کلمات و عبارات موجود در جملة بيان شده توسط کاربر است .