Skip to main content
فهرست مقالات

شناسایی خودکار سیر اشتقاق کلمات در زبان عربی

نویسنده:

(7 صفحه - از 6 تا 12)

کلید واژه های ماشینی : شناسایی خودکار سیر اشتقاق کلمات ، کلمه ، سیر اشتقاق کلمات در زبان ، اشتقاق کلمات در زبان عربی ، کاربر ، فعل ، تصریف ، میانوند ، پسوندها ، متن

خلاصه ماشینی:

"از آنجا که بعضی از پیشوندها و پسوندها میان اسم، فعل و حرف مشترک بوده و یا میان دو دسته از آنها مشترک هستند و از طرف دیگر، بعضی از آنها مخصوص یک دسته می‌باشد، در مرحله اولیه و بدون مشخص نمودن کاربر حالات ارائه‌شده توسط برنامه متنوع بوده و ممکن است کاربر به‌راحتی نتواند به حالت مورد نظر خود دست پیدا کند؛ اما اگر کاربر نوع کلمه را وارد نماید، این حالات به‌مراتب کاهش پیدا خواهد نمود. 2. شناسایی اغلاط احتمالی (3) متن از آنجا که روند تحلیل موتور صرف با فرض صحیح بودن کلمات موجود در متن ورودی صورت می‌پذیرد، به همین دلیل، اگر تحلیلگر صرفی نتواند برای کلمه‌ای جوابی ارائه نماید، فارغ از اینکه عدم وجود جواب ممکن است به جهت ضعف و نقص تحلیلگر صرفی باشد، خود می‌تواند با یک احتمال نسبتا بالایی وجود اشتباه برای آن کلمه را بیان نماید. در حال حاضر، کاربر با جست‌وجوی این کلمه به سوی هر سه دسته از این کلمات در متن سوق داده می‌شود که با فرض فعال بودن جست‌وجوی پیشرفته، تعداد کلمات پیشنهادی به‌مراتب زیاد بوده و کاربر را دچار سردرگمی می‌نماید؛ اما با این قابلیت کاربر می‌تواند فقط «علی"های فعلی را مورد بررسی قرار دهد؛ برای مثال، کلمه «فی» میان فعل و حرف مشترک است که تعداد رخدادهای حرفی آن در متن به‌مراتب بیشتر از رخداد‌های فعلی است و اگر کاربر بخواهد به حالات فعلی دسترسی پیدا کند، فرآیند جست‌وجو زمان‌بر، کم‌فایده و پرهزینه خواهد بود؛ ولی به کمک این قابلیت می‌تواند به موارد فعلی به طور مستقیم دسترسی داشته باشد."

صفحه: از 6 تا 12
6 ره آورد نور , زمستان 1394 - شماره 53

7 ره آورد نور , زمستان 1394 - شماره 53

8 ره آورد نور , زمستان 1394 - شماره 53

9 ره آورد نور , زمستان 1394 - شماره 53

همکاران گروه‌ متن‌کاوی‌ و مساعدت زبان‌شناسان خبره گروه پژوهش انجام شده است. سرعت‌بخشی در تهیه و توسعه این پیـکره‌های رفـع ابهام‌شده‌ و افزایش‌ دقت‌ آن، از جمله بهره‌برداری‌هایی بود که تحلیلگر صرفی ارائه کرد.

نفس تهیه‌ این‌ پیکره‌های‌ رفع ابهام‌شده با توجه به روند پرچالش و حجیمی که دارد، ارزشمند بوده و بعضی از‌ مؤسسات‌ مشابه‌، از آن بـه عـنوان دستاوردهای انحصاری خود استفاده می‌نمایند. هم‌اینک، دیتای رفع ابهام صرف‌، دارای‌ 523992 رکورد می‌باشد که 487716 رکورد آن، یعنی معادل 93% رفع ابهام شده‌اند‌. تعداد‌ کل‌ میانوندها، پیشوندها و پسوندهای رفع ابهام‌شده، 489630 عدد و تـعداد کـل ویـژگی‌های رفع ابهام‌شده، حدود 4651485‌ مورد‌ مـی‌باشد کـه در نـوع خود بی‌نظیر است.

8. مدیریت رسم‌الخط‌های مختلف

برای بعضی حروف‌ در‌ زبان‌ عربی، رسم‌الخط‌های مختلفی وجود دارد که همه آنها صحیح بوده و ممکن اسـت در یـک مـتن‌ یک‌ کلمه با چند رسم‌الخط متفاوت آمده بـاشد. در ایـن صورت، لازم است‌ برنامه‌ بتواند‌ تمام حالات صحیح را شناسایی نموده، از اشتباهات آن تفکیک نماید. یکی از این حروف‌، همزه‌ می‌باشد‌ که بـا پایـه کـرسی‌های مختلف در متن ظاهر می‌گردد؛ به طور مثال‌، کلمات‌ «ءادم، آدم، أولئک، أولائک، شيئا، شـيءا، لَئِن، لَإِن، علماءهم، علمائهم، علماؤهم»، از جمله مواردی هستند که‌ برنامه‌ می‌تواند تمام آنها را شناسایی نماید.

9. استفاده در آموزش علم صرف زبـان‌ عـربی‌

یـکی دیگر از قابلیت‌های جنبی برنامه صرف‌، این‌ است‌ که می‌تواند در آموزش عـلم صـرف به‌ زبان‌شناسان‌، محققان، دانشجویان و طلاب علوم دینی کمک شایانی کند. اگر برنامه‌ای مناسب با طراحی‌ واسـط‌ کـاربر خـوب طراحی گردد، کاربران‌ می‌توانند‌ خروجی‌های درخواستی‌ خود‌ را‌ مشاهده نمایند که در خصوص قـواعد‌ اعـلال‌، ادغـام و یا ابدال مفید خواهد بود.

10. سیر اشتقاق تصریف

یکی از‌ مهم‌ترین‌ کاربردهای برنامه تحلیل صـرف، اسـتفاده در‌ بـه‌دست آوردن سیر اشتقاق‌ تصریف‌ و روند ساخته‌شدن کلمه از ریشه‌ تا‌ کلمه مورد نظر می‌باشد. ارائه سلسله‌کلمات مـرتبط بـا کلمه ورودی، در اصطلاح، ریشه‌یابی‌ تصریفی‌ (6) نامیده می‌شود. روند کار بدین‌ صورت‌ است‌ که زنـجیره ایـن‌ کـلمات‌ مرتبط با توجه به‌ تعریف‌ ارائه‌شده، از نزدیک‌ترین سطح شروع گردیده، تا دورترین سطح کـه هـمان ریشه کلمه است‌، ادامه‌ پیدا می‌کند.

در سامانه تحلیلگر صرفی‌، تمام‌ شقوق و حالات‌ ریـشه‌های‌ مـعتبر‌ زبـان عربی به طور‌ بالقوه وجود دارند و برای هر دسته از کلمات، اعم از فعل و اسم، توانایی تـولید و ایـجاد‌ وجود‌ دارد. در حال حاضر، فقط حالاتی‌ که‌ متناسب‌ با‌ کلمه‌ ورودی هستند، توسط‌ بـرنامه‌ تـولید مـی‌گردد و حالات مورد نیاز، به صورت هوشمند تولید می‌شوند. از آنجا که مقدمات تولید زنجیره‌ سیر‌ اشـتقاق‌ تـصریف، هـمگی در تحلیلگر صرفی موجود بود‌ و فقط‌ نیاز‌ به‌ تولید‌ یکایک‌ عناصر این زنـجیره داشـت، به همین دلیل، در کنار سیر تحلیل صرفی برای کلمه، این زنجیره نیز تولید می‌گردد.

اگر ریـشه صـحیح و سالم نباشد، لازم است که‌ برای تک‌تک عناصر، عملیات اعلال، ادغام، تخفیف و مـضاعف نـیز انجام شود که به طور متوسط، بـه ازای هـر کـلمه ورودی، 10 کلمه مورد تحلیل صرفی قرار می‌گیرد. بـرنامه در ایـن‌ باره‌ به گونه‌ای نوشته شده است که ابتدا همه عناصر به طور مـجزا سـاخته می‌شوند و در نهایت، با هر تـرتیب دلخـواهی که لازم بـاشد، در کـنار هـم قرار گرفته و به‌ کاربر‌ ارائه می‌شوند. ایـن قـابلیت وجود دارد که تعداد و یا ترتیب آنها عوض شده، کاربر می‌تواند متناسب بـا نـیاز خود، زنجیره مورد نظر را‌ دریافت‌ نـموده، مورد بررسی قرار دهـد‌.

بـرای‌ مثال، روند اشتقاق تصریفی فـعل

10 ره آورد نور , زمستان 1394 - شماره 53

11 ره آورد نور , زمستان 1394 - شماره 53

12 ره آورد نور , زمستان 1394 - شماره 53