چکیده:
پیکرههای موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بینزبانی است. لازمه استفاده از این پیکرهها همترازی آنها در سطح جمله است، اما جمعآوری و یا تولید این پیکرهها و همچنین همترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمعآوری پیکرههای موازی از وب و همترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگیهای هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقهبند بیشترین پراکندگی جملات موازی استخراج میشود. یکی از ویژگیهای جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزههای متفاوت معنایی است.
Parallel corpora regard as rich linguistic resources for Natural Language Processing and Cross Language Information Retrieval tasks. It is usually needed to align sentences before using these valuable resources; however, sentence alignments are expensive in terms of time and cost. With development of the World Wide Web and free access to it, automatically building parallel corpus from the Web is desirable. In this paper, we first choose bilingual pages with parallel content to extract parallel sentence candidates. Then, by computing several features and learning a Maximum Entropy classifier, parallel sentences are extracted from the candidate sentences. Our approach is not dependent on specific domain and it can cover different domains in the Web.
خلاصه ماشینی:
در اين مقاله براي توليد جملات موازي، ابتدا صفحات وب حاوي جملات موازي انتخاب، سپس ويژگي هاي هر زوج جمله فارسي -انگليسي در اين صفحات محاسبه و در نهايت به کمک طبقه بند بيشترين پراکندگي ٤جملات موازي استخراج مي شود.
در اين کار با استفاده از ماشين ترجمه پايه ، تمام اسناد جمع آوري شده، به يک زبان واحد تبديل مي شوند، سپس چندتايي هاي متداول و غيرمتداول از هر يک از متون استخراج و با شاخص گذاري متن بر اساس اين چندتايي ها، بهترين متون موازي بر اساس معيار شباهت کسينوسي انتخاب مي شود.
در اين پيکره، ابتدا اسناد موازي از مجموعه اسناد ويکي پديا استخراج و بر اساس سه معيار (کلمات با يک بار رخداد در متن ، اعداد، علائم سجاوندي) شاخص گذاري مي شوند، سپس با استفاده از اين سه شاخص ، سه ويژگي براي طبقه بند تعريف مي گردد که بر اساس آن متون موازي تشخيص 1 1- Resnik, P.
در مقاله مونتنو و مارکو١١(٢٠٠٥) براي استخراج جملات موازي، طبقه بندکننده بيشينه پراکندگي ، آموزش داده شده است به طوري که به ازاي هر دو جمله تعيين مي نمايند که آيا آن دو ترجمه يکديگرند يا خير.
"Building a Web-based parallel corpus and filtering out machine-translated text".
Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Companion Volume, Short Papers (pp.
Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp.