چکیده:
پژوهش حاضر به معرفی رویکردی ماشینی برای چگونگی رفع ابهام معنایی از کلمات میپردازد. در زبان فارسی، که ساختواژه پیچیدهای دارد، همنگارههای بسیاری ساخته میشوند که معانی گوناگونی در بافتهای گوناگون دارند. یکی از راههایی که کمک میکند رفع ابهام از معنای کلمات مبهم (همنگارهها) با سهولت و دقت بیشتری انجام شود، تخصیص برچسب درست نحوی به کلمات است. بنابراین، اگر برچسبدهی نحوی قبل از مرحله رفع ابهام معنایی از کلمات صورت پذیرد، رفع ابهام معنایی از همنگارهها با دقت بیشتری انجام خواهد گرفت. از آنجا که فراوانی همنگارههای اسمی و صفتی در متون فارسی، در مقایسه با سایر همنگارهها بالاست، پس از تخصیص برچسب نحوی به کلمات لازم است رفع ابهام از برچسب نحوی همنگارهها نیز صورت گیرد. در این مقاله ابتدا روشهای ماشینی موجود در جهت رفع ابهام از معنای کلمات معرفی میشود و سپس، الگوریتم «لسک» (که یکی از روشهای یادگیری ماشینی بدون نظارت/ بدون سرپرست برای رفع ابهام معنایی از کلمات مبهم موجود در متون گوناگون است) معرفی میشود و در نهایت، رویکردی ماشینی جهت رفع ابهام از معنای کلمات با استفاده از نتیجه مرحله برچسبزنی نحوی به کلمات و رفع ابهام از برچسب نحوی کلمات و الگوریتم «لسک» معرفی میشود. انجام برچسبدهی نحوی و رفع ابهام از برچسب نحوی همنگارهها باعث میشود که الگوریتم «لسک» تنها، معانی مرتبط با برچسبهای نحوی را در رفع ابهام معنایی از کلمات در نظر گیرد و در نتیجه، عمل رفع ابهام از معنای کلمات با دقت و سهولت بیشتری انجام پذیرد.
The present study introduces a machine-based approach for word sense disambiguation (WSD). In Persian, a morphologically complex language, POS tag which lots of homographs are made, one way for doing WSD is allocating the right Part Of Speech (POS) tags to words prior to WSD. Since the frequency of noun and adjective homographs in different Persian POS tag text corpuses is high, POS tag disambiguation of such homographs seems to be necessary for WSD. This paper introduces an approach in which first POS tagging is done, then the output, which is tagged sentences, enters the next step which is POS disambiguation of Persian nouns and adjective homographs. Then the output of this step enters the final step which is applying the Lesk algorithm (a kind of unsupervised learning) for WSD. The proposed approach speeds up the WSD procedure by filtering the only relevant glosses (existing in dictionary) and increases the accuracy of the WSD procedure as well.