چکیده:
مهم ترین بخش پردازش زبان شامل درک متن و تشخیص گفتار است. درک متن گاهی در سطح نحو است. رایانه، در این حالت، متن را در سطح جمله و بند و کل متن تحلیل می کند. از درک مفهوم متن در ترجمه ماشینی نیز استفاده می شود. تحقیق در این بخش از پردازش زبان از اواخر دهه هشتاد میلادی آغاز شد.
متن معنی گسترده ای دارد. در مقیاسی عام، حتی علایم راهنمایی و رانندگی را می توان متن خواند (CRYSTAL 1992, p.387). به این اعتبار هر لفظ را می توان متن شمرد و درک مفهوم متن را به حوزه کلمه نیز تعمیم دارد. واژه ها یا بسیط اند یا ترکیبی یعنی یا ساده اند و از چند جز معنی دار (تکواژ) ساخته نشده اند یا پیچیده اند و از چند تکواژ ساخته شده اند. تحلیل متن در سطح واژه مربوط به حوزه صرف است. واژه های ترکیبی را بر حسب آنکه با اشتقاق یا با ترکیب ساخته شده باشند می توان به دو دسته اصلی تقسیم کرد: مشتق و مرکب. واژه های مشتق از یک پایه به اضافه وند ساخته می شوند؛ مانند دانشمند، بی باک. واژه های مرکب از اجتماع چند تکواژ مستقل از مقوله های اسم و صفت و قید و بن فعل ساخته می شوند؛ مانند کتابخانه، عقب گرد، خانه نشین.
واژه شکن فارسی برای تحلیل واژه های ترکیبی این زبان ساخته شده است. این نرم افزار واژه های مشتق و مرکب را تجزیه و مقوله آنها را مشخص می سازد و آن نخستین برنامه رایانه ای است که با این درجه از هوشمندی در حوزه صرف زبان فارسی عمل می کند.
بخش های سه گانه این مقاله به ترتیب درباره «ساختمان واژه شکن»، «شیوه استخراج قواعد»، «ویژگی های واژه شکن» است.
خلاصه ماشینی:
"واژهشکن فارسی برای تحلیل واژههای ترکیبی این زبان ساخته شده است.
این نرمافزار واژههای مستق و مرکب را تجزیه و مقولهء آنها را مشخص میسازد و آن نخستین برنامهء رایانهای است که با این درجه از هوشمندی در حوزهء صرف زبان فارسی عمل میکند.
1-1-2 اسم در این بخش،43 نوع اسم با ملاکهای صرفی و قابلیت پیوستن به وندها و شیوهء ترکیب با دیگر مقولات دستوری و بن افعال تمیز داده شدهاند(صفت و وند نیز با ملاکهای صرفی از هم تمیز داده شدهاند):اسم،اسم جاندار،اسم معنی،اسم عمل،اسم زمان، اسم خویش،اسم مصدر،اسم مرکب و جز آن.
این بحث هرچند در حوزهء نحو صورت گرفت،میتوان آن را به حوزهء صرف تعمیم داد و در معنی واژههای مرکب تا حدی با تسامح برخورد کرد و غیرمتعارف بودن این (5)نگارنده،در رسالهء دکتری خود،در پی طراحی ماشین مفروضی بوده که جملههای دستوری را بدون توسل به معنی از جملههای غیردستوری تمیز دهد یعنی بر مبنانی نظر چامسکی در ساختهای نحوی.
بینظمی موجود در ساختهای ترکیبی به خصوص اشتقاقی نیز دلیل موجهی برای دستوری شمردن ترکیبات بالقوهای است که معنی غیرمتعارف دارند مثلا پسوند-ا را میتوان به صفتهای پهن و دراز اضافه کرد و پهنا و درازا را ساخت.
مثلا قاعدهء قرار گرفتن صفت بعد از اسم در زبان فارسی قاعدهای دوری است زیرا منطقا میتوان گفت:این کتاب قطور خواندنی جذاب سبز....
در کار واژهشکن،مسکل به این صورت حل شد که برای کتابک و کبوتر باز نامی به جز اسم و اسم (6) well-formed (7) recursive (8) iterative جاندار یعنی اسم تصغیر اشتقاقی و اسم جاندار مرکب اختیار شد و قاعدهء دیگری برای ترکیب این ساختهای جدید با پسوند-ک و-باز داده نشد تا مانع از دوری شدن قواعد شود."