چکیده:
در زبان شناسی، پیکره انبارهای از داده های متنی است. در این مقاله، تمرکز ما بر طراحی و ساخت خودکار پیکره دو زبانه فارسی-انگلیسی است. ما نرم افزاری برای ساخت پیکره طراحی کرده ایم که هزینه و زمان ساخت پیکره را کاهش می دهد؛ به علاوه نرمافزار ارائه شده قابلیت مدیریت پیکره را نیز برای کاربران فراهم می کند. در این مقاله، روشی برای ترازبندی جمله های پیکره فارسی تخصصی حوزه فاوا و جملات انگلیسی پیکره تخصصی حوزه فاوا ارائه شده است. هدف ما طراحی یک سیستم ترازبندی برای استخراج جمله های متناظر دو زبان است. در این روش، ما با استفاده از یک لغت نامه دو زبانی که خود مولفان ایجاد کرده ایم و با استفاده از تکنیک پیشنهاد شده، امتیاز شباهت دو جمله را محاسبه می کنیم. آزمایشات نشان می دهد که این تکنیک علاوه بر اینکه از نظر دقت بسیار قوی است، تعداد جمله های کاندید را نیز کاهش می دهد.
خلاصه ماشینی:
"برای فراهم کردن متون پیکره در حوزة فاوا از منابع مختلفی استفاده کردهایم که این منابع عبارتند از: کتاب های تخصصی و نیمهتخصصی حوزه فاوا ، برق، کامپیوتر و یا فناوری اطلاعات به زبان فارسی و انگلیسی.
/ شکل 3: فلوچارت اجرای افزودن سند به پیکره ترازبندی جملهها در پیکرة تطبیقی انگلیسی-فارسی فاوا همانطور که در بخش دوم اشاره شد، تعداد کمی پیکرههای تطبیقی فارسی-انگلیسی ایجاد شده است.
پردازش سند فارسی و استخراج جملهها و واژگان سند پس از آنکه اسناد تخصصی انگلیسی حوزه فاوا جمعآوری شد و توسط سیستم مدیریت پیکرة فاوا حاشیه نویسی گردید، این نرمافزار از اطلاعات اسناد انگلیسی، یک پایگاه داده به نام پایگاه داده انگلیسی فاوا ایجاد میکند.
در پیکرههای تطبیقی دیگر مثل پیکره UTPECC و پیکرة کریمی ابتدا دو مجموعه انگلیسی و فارسی به طور مستقل ایجاد شدهاند و در نهایت یک فرایند ترازبندی بین دو مجموعه صورت گرفته است اما از آنجا که هدف ما ساخت پیکرهای بود که همواره قابلیت افزودن اسناد جدید و بروزرسانی اطلاعاتش وجود داشته باشد، فرایند ترازبندی اسناد انگلیسی و فارسی را به امکانات سیستم مدیریت پیکره اضافه نمودیم.
با توجه به ایرادات وارد به پیکرههای موجود، پیکرة فاوا به دلیل پیش پردازش اسناد فارسی و خودکار بودن فرایند ساخت پیکره قابل استفاده در بسیاری از کاربردهای پردازش زبان فارسی است.
بررسی نتایج بهصورت دستی نشان داد که جملههای فارسی که به هیچ جملة انگلیسی نگاشت داده نشدهاند، یا دارای کلمههای فاوا نبودند و یا غالبا از کلمههای غیر رایج در حوزه فاوا استفاده کرده بودند که این واژگان در لغتنامة ما موجود نبوده است."