چکیده:
یکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشده دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متاسفانه همواره پژوهشگران با کمبود پیکرههای موازی مواجه بودهاند. در این راستا، در پژوهش حاضر سعی شده است بهمنظور تولید پیکره موازی با بهرهگیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات همترازانگلیسی/فارسی از متون مقایسهای ارائه شود. در این روش، با ساخت بردار ویژگی با بهرهگیری از اطلاعات نحوی جملات، یک مدل همترازی آموزش داده میشود. دقت مدل همترازی،در بهترین حالت، به شکل عملیاتی روی دادههای آزمون (208 عدد جفت جمله) 77% و روی دادههای آموزشی (830 عدد جفت جمله) 7/ 97 % محاسبه شد. از آنجایی که حجم دادههای طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتمهای آموزش مورد استفاده قرار گرفت. بهمنظور افزایش دقت، از یک الگوریتم جستوجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی دادههای آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با بهکارگیری مدل همترازی بهدستآمده، به تولید ابزار همترازی دانشگاه اصفهان منجر شد، که میتواند بهمنظور خودکفایی در تولید پیکرههای موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
Parallel corpora have always been considered among the richest resources in the field of natural language processing. These corpora include translated texts from two or more languages that are usually aligned at the different levels of word, clause, or sentence. Notwithstanding the many uses of these corpora in different studies such as linguistic researches, statistical machine translation, and cross language information retrieval; unfortunately parallel corpora have always been rare and limited in number and quality.. Accordingly, in this paper an automatic method for extracting parallel sentences from comparable resources is introduced which exploits syntactic information. In this method, by using syntactic information of the sentences, an alignment model is trained. The highest practical accuracy of the alignment model on the test set (208 pairs of sentences) was measured to be 77% and the highest precision on the training set (830 pairs of sentences) was 97.7%. Considering the tiny size of the golden corpora, n-fold cross validation technique was used in all training algorithms. To attain higher precision, a new similarity search algorithm was implemented which increased the practical accuracy on the test set from77% to 85.15%. The final outcome of this research was an alignment toolkit and framework which was named "Isfahan University Parallel Corpus Framework" or IPCF, which can be used by the researchers in the field of computational processing of Persian language to construct standard parallel corpora.