استخراج جملات موازی از دادگان وب مقاله

نویسنده: براتعلی پور، نسرین ؛ فیلی، هشام ؛ شاکری، آزاده ؛

پازند پاییز 1391 - شماره 30 (‎16 صفحه - از 21 تا 36 )

کلیدواژه ها: پیکره موازی هم‌ترازی متون داده کاوی وب align sentence web processing parallel corpus وب پیکره اطلاعات استخراج صفحات وب

fa en

چکیده:

پیکره‌های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین‌زبانی است. لازمه استفاده از این پیکره‌ها هم‌ترازی آنها در سطح جمله است، اما جمع‌آوری و یا تولید این پیکره‌ها و همچنین هم‌ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع‌آوری پیکره‌های موازی از وب و هم‌ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگی‌های هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه‌بند بیشترین پراکندگی جملات موازی استخراج می‌شود. یکی از ویژگی‌های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه‌‌های متفاوت معنایی است.

خلاصه ماشینی:

در اين مقاله براي توليد جملات موازي، ابتدا صفحات وب حاوي جملات موازي انتخاب، سپس ويژگي هاي هر زوج جمله فارسي -انگليسي در اين صفحات محاسبه و در نهايت به کمک طبقه بند بيشترين پراکندگي ٤جملات موازي استخراج مي شود. در اين کار با استفاده از ماشين ترجمه پايه ، تمام اسناد جمع آوري شده، به يک زبان واحد تبديل مي شوند، سپس چندتايي هاي متداول و غيرمتداول از هر يک از متون استخراج و با شاخص گذاري متن بر اساس اين چندتايي ها، بهترين متون موازي بر اساس معيار شباهت کسينوسي انتخاب مي شود. در اين پيکره، ابتدا اسناد موازي از مجموعه اسناد ويکي پديا استخراج و بر اساس سه معيار (کلمات با يک بار رخداد در متن ، اعداد، علائم سجاوندي) شاخص گذاري مي شوند، سپس با استفاده از اين سه شاخص ، سه ويژگي براي طبقه بند تعريف مي گردد که بر اساس آن متون موازي تشخيص 1 1- Resnik, P. در مقاله مونتنو و مارکو١١(٢٠٠٥) براي استخراج جملات موازي، طبقه بندکننده بيشينه پراکندگي ، آموزش داده شده است به طوري که به ازاي هر دو جمله تعيين مي نمايند که آيا آن دو ترجمه يکديگرند يا خير. "Building a Web-based parallel corpus and filtering out machine-translated text". Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Companion Volume, Short Papers (pp. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp.

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود HTML
دانلود PDF

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1401

1398

1397

1396

1395

1394

1393

1392

1391

استخراج جملات موازی از دادگان وب مقاله