Skip to main content
فهرست مقالات

شناسایی خودکار سیر اشتقاق کلمات در زبان عربی

نویسنده:

(7 صفحه - از 6 تا 12)

کلید واژه های ماشینی : شناسایی خودکار سیر اشتقاق کلمات، کلمه، سیر اشتقاق کلمات در زبان، اشتقاق کلمات در زبان عربی، کاربر، فعل، تصریف، میانوند، پسوندها، متن

خلاصه ماشینی:

"از آنجا که بعضی از پیشوندها و پسوندها میان اسم، فعل و حرف مشترک بوده و یا میان دو دسته از آنها مشترک هستند و از طرف دیگر، بعضی از آنها مخصوص یک دسته می‌باشد، در مرحله اولیه و بدون مشخص نمودن کاربر حالات ارائه‌شده توسط برنامه متنوع بوده و ممکن است کاربر به‌راحتی نتواند به حالت مورد نظر خود دست پیدا کند؛ اما اگر کاربر نوع کلمه را وارد نماید، این حالات به‌مراتب کاهش پیدا خواهد نمود. 2. شناسایی اغلاط احتمالی (3) متن از آنجا که روند تحلیل موتور صرف با فرض صحیح بودن کلمات موجود در متن ورودی صورت می‌پذیرد، به همین دلیل، اگر تحلیلگر صرفی نتواند برای کلمه‌ای جوابی ارائه نماید، فارغ از اینکه عدم وجود جواب ممکن است به جهت ضعف و نقص تحلیلگر صرفی باشد، خود می‌تواند با یک احتمال نسبتا بالایی وجود اشتباه برای آن کلمه را بیان نماید. در حال حاضر، کاربر با جست‌وجوی این کلمه به سوی هر سه دسته از این کلمات در متن سوق داده می‌شود که با فرض فعال بودن جست‌وجوی پیشرفته، تعداد کلمات پیشنهادی به‌مراتب زیاد بوده و کاربر را دچار سردرگمی می‌نماید؛ اما با این قابلیت کاربر می‌تواند فقط «علی"های فعلی را مورد بررسی قرار دهد؛ برای مثال، کلمه «فی» میان فعل و حرف مشترک است که تعداد رخدادهای حرفی آن در متن به‌مراتب بیشتر از رخداد‌های فعلی است و اگر کاربر بخواهد به حالات فعلی دسترسی پیدا کند، فرآیند جست‌وجو زمان‌بر، کم‌فایده و پرهزینه خواهد بود؛ ولی به کمک این قابلیت می‌تواند به موارد فعلی به طور مستقیم دسترسی داشته باشد."

صفحه:
از 6 تا 12
6 ره آورد نور , زمستان 1394 - شماره 53

7 ره آورد نور , زمستان 1394 - شماره 53

8 ره آورد نور , زمستان 1394 - شماره 53

9 ره آورد نور , زمستان 1394 - شماره 53

10 ره آورد نور , زمستان 1394 - شماره 53

11 ره آورد نور , زمستان 1394 - شماره 53

12 ره آورد نور , زمستان 1394 - شماره 53

باعث می‌گردد کاربر‌ به‌ دامنه وسیع‌تری از کلمات دسترسی پیدا کـند و در نـتیجه، بـررسی و تصمیم‌گیری‌هایش با احاطه‌ بیشتری‌ صـورت خـواهد گـرفت؛ برای مثال‌، با‌ جست‌وجوی کلمه‌ «بمساجد‌»، علاوه‌ بر «مساجد»، «بمساجده»، «بمساجدکم» و «مساجدهم»، کلمات‌ «مسجد‌»، «سجدة»، «سجود» و «سجّاد» و سایر ترکیبات پیشوندی و پسـوندی آنـها نـیز در دامنه بررسی‌ قرار‌ می‌گیرند.

3. جست‌وجوی مدیریت‌شده: اگر تـمام کـلمات‌ داخل متن مورد استفاده‌ قبل‌ از انجام جست‌وجو توسط تحلیلگر‌ صرفی‌ تگ خورده و رفع ابهام هم شده باشند، در مواردی کـه کـلمه مـورد جست‌وجو‌ بین‌ اسم، فعل و حرف و یا حداقل‌ دوتای‌ از‌ آنها مـشترک باشند‌، کاربر‌ را قادر می‌سازند که‌ کلمه‌ را در دامنه‌های مختلف اسمی، فعلی و یا حرفی مورد جست‌وجو قرار دهد؛ به عـنوان‌ مـثال‌، کـلمه «علی» بین هر سه دسته‌ مشترک‌ می‌باشد؛ (عَلِيَ‌(فعل‌)، عَلِيّ‌(اسـم) و عـَلَي(حرف)). در‌ حال حاضر، کاربر با جست‌وجوی این کلمه به سوی هر سه دسته از این کلمات‌ در‌ مـتن سـوق داده مـی‌شود که با‌ فرض‌ فعال‌ بودن‌ جست‌وجوی‌ پیشرفته، تعداد کلمات‌ پیشنهادی‌ به‌مراتب زیـاد بـوده و کـاربر را دچار سردرگمی می‌نماید؛ اما با این قابلیت کاربر می‌تواند فقط «علی‌"های‌ فعلی‌ را مـورد بـررسی قـرار دهد؛ برای مثال‌، کلمه‌ «في‌» میان‌ فعل‌ و حرف‌ مشترک است که تعداد رخدادهای حـرفی آن در مـتن به‌مراتب بیشتر از رخداد‌های فعلی است و اگر کاربر بخواهد به حالات فعلی دسترسی پیـدا کـند، فـرآیند جست‌وجو زمان‌بر‌، کم‌فایده و پرهزینه خواهد بود؛ ولی به کمک این قابلیت می‌تواند به موارد فـعلی بـه طور مستقیم دسترسی داشته باشد. به دلیل ارائه شدن ویژگی‌های متعدد صرفی برای هـر کـلمه، مـی‌توان‌ عملیات‌ جست‌وجو را بر اساس هر کدام از این ویژگی‌ها متمرکز نمود که در مثال فوق، جست‌وجو بـر اسـاس نوع کلمه که در ویژگی Pos خروجی تحلیل صرف بود، صورت‌ می‌گرفت‌؛ به عـنوان مـثال دیـگر، می‌توان جست‌وجو را بر ریشه کلمات، یعنی Root خروجی تحلیل صرفی متمرکز نمود؛ برای مثال، کلمه «عـاد» در حـالت‌ فـعلی‌ از ریشه «عود»، و در حالت‌ اسمی‌ از ریشه «عدد» قابل تصور است. حال اگر کـاربر در هـنگام جست‌وجو ریشه مورد نظر خود را هم وارد نماید، می‌تواند به طور مستقیم‌ به‌ کلمه «عاد» مورد نـظر‌ خـود‌ دسترسی پیدا نماید. در موارد لازم می‌توان حتی با تلفیق این ویژگی‌ها، فرآیند جـست‌وجو را بـا دقت بسیار بالایی مدیریت و ناوبری کرد. در مـثال جـست‌وجوی «عـلی»، کاربر می‌تواند با ترکیب‌ نوع‌ کلمه و ریـشه بـه طور مستقیم، به «علی"هایی که فعل بوده و از ریشه «علو» هستند، دست پیـدا کـند و یا اینکه به «علی"هـایی کـه از ریشه «عـلی» هـستند، رجـوع نماید‌.

4. کمک‌ به محققان‌ جهت تـدوین لغـت‌نامه، از جمله کاربردهای دیگر سیر اشتقاق تصریف می‌باشد. روش کار این است که مـحقق‌ بـه‌ترتیب از خود کلمه تا ریشه جلو رفـته و در این پیشروی‌، هر‌ کـلمه‌ای‌ کـه موضوعیت قرار گرفتن به عـنوان یـک مدخل در لغت‌نامه را داشته باشد، انتخاب گردیده، در جایگاه ‌‌خود‌ قرار داده می‌شوند و باعث می‌شود تـا ایـن تدوین، با نظم و دقت بـهتر و سـرعت‌ بـالاتری‌ صورت‌ پذیرد.

5. از جـمله کـاربردهای مفید این ویژگی، اسـتفاده در انـتقال کاربر به نزدیک‌ترین کلمه موجود‌ در لغت‌نامه (قاموس) می‌باشد. در این حالت، کاربر در بررسی کلمه مـورد نـظر‌ خود به یکباره به‌ سطوح‌ دورتـر و کـمتر مرتبط بـا کـلمه ورودی مـنتقل نشده و موجبات سردرگمی او ایـجاد نمی‌گردد و تنها در صورت نیاز و درخواست خود کاربر است که مرحله‌به‌مرحله به سطوح کمتر مرتبط کـه آخـرین آنها ریشه‌ کلمه است، منتقل مـی‌شود و دامـنه بـررسی کـاربر بـه اختیار خود او گـسترش پیـدا می‌نماید.

کاربردهای سیستم ریشه‌یابی تصریفی، به این موارد خلاصه نمی‌شود. به طور کلی، با استفاده از ایـن سـیستم‌ مـی‌توان‌ به «غنی‌سازی انواع داده‌های متنی» پرداخت و بـا بـهره‌گیری از «درخـت‌های ارتـباط مـعنایی»، از ایـن متون غنی‌شده در کاربردهای سطح بالایی، از قبیل سیستم‌های: «تحلیل محتوا»، «مشابه‌یاب متون» و «معاجم لفظی و موضوعی‌» بهره‌ برد. بررسی و توضیح موارد اشاره‌شده، به تفصیل و توضیح بیشتر نیاز دارد که در ایـن مقام نمی‌گنجد و در کارهای تحقیقاتی پیش رو، با جزئیات بیشتر به آنها پرداخته خواهد شد‌.

پی‌نوشت‌ها‌:

1. Tokenization.

2. Stemming.

3. Error Detection.

4. Diacritizator.

5. Corpus.

6. Lemmatization.

7. Linier.