چکیده:
امروزه به مدد ظهور انواع فناوریهای رایانه ای، پیکره های زبانی نقش بسیار مهمی در حل انواع مختلف مسائل زبانشناختی ایفا میکنند. پیکره های دو زبانه موازی در سطح جمله و در سطح واژه میتوانند برای بازیابی واحدهای تک واژه ای و یا حتی چند واژه ای براحتی مورد استفاده قرارگیرند که این امر کاربردهای مفیدی در حوزه های مختلف رایانه و زبان خواهد داشت . هدف این مقاله به کارگیری یک پیکره موازی انگلیسی– فارسی ازقبل طراحیشده درجهت ساخت یک مطابقه ١ (کشف اللغات ) دو زبانه کارآمد با استفاده از آمارة اطلاعات متقابل است . در اینجا از آماره اطلاعات متقابل استفاده میشود تا همترازی در سطح واژه بین جملات انگلیسی و فارسی پیکرة مورد نظر صورت گیرد. یک پیکرة زبانی همترازشده در سطح واژه مسلما کاربردهای زیادی از جمله در تهیه نرم افزار حافظه ترجمه ، مدیریت مجموعه اصطلاحات ، بازیابی اطلاعات دوزبانه ، سیستم ترجمه ماشینی مبتنی برآمار و مانند آن دارد. با استفاده از یک الگوریتم ابتکاری آزمایشی ترتیب داده شده و مقایسه ای بین برونداد همترازسازی خودکار با جملات همترازشده توسط مترجم انسانی صورت گرفت . نتایج این آزمایش نشان داد که برنامه مطابقه گزارش شده در این تحقیق میتواند صحتی معادل ٧٥ درصد را به دست آورد.
خلاصه ماشینی:
"اکنون زمان آن رسیده تا مطابقه موازی در سطح جمله به شکل یک بسته نرم افزاری ساخته شود تا کاربر قادر باشـد بـه وسیله آن واژة خاصی را در زبان انگلیسی یا فارسی جستجوکرده و فهرستی از تمام جملات به زبـان مـوردجسـتجو شـامل 1 content words 2 function words 3 CLAWS POS tagger 4 FarsiTag آن واژه خاص همراه با جملات متناظر به زبان دیگر را دریافت نماید و این در حالی است که جسـتار مـوردنظر و معـادل آن به زبان دیگر به طور برجسته نشان داده شده است .
پیکره آزمون استفاده شده برای ارزیابی عملکرد این آزمایش مبتنی بر الگوی پیشنهادی شامل مجموعـه ای از ١٠٠ واژه انگلیسی در نقش جستار است که به عنوان درونداد به الگوریتم داده میشود و برونداد سیستم مطابقه در سطح جمله اسـت که در آن کـاربر قـادر اسـت مجموعـه ای از جفـت جمـلات بـه انگلیسـی و فارسـی را همـراه بـا جسـتارهای مـورد نظـر و ترجمه هایشان کـه برجسـته نمـایش داده مـیشـوند را مشـاهده نمایـد.
از آنجـایی که در این آزمایش پاسخ های تولیدشده (تعداد زنجیره های تولیدشده توسط برنامه ) با کـل پاسـخ هـای موردانتظـار (تعـداد زنجیره ها در پیکرة آزمون ) یکسان هستند، دقت و فراخوانی یکی بوده و عملکرد برنامه با صحت اندازه گیری میشود: AccuracyNumber of correctoutputs proposed by program 75 75% Total number of English queries in the test set 100 نتایج به دست آمده از معادل یابی خودکار با همان مجموعه از واژه ها که از جفت جملات انگلیسی و فارسی در پیکره به صورت دستی در سطح واژه همتراز شده بودند مقایسه شد."