چکیده:
در این مستند، به یکی از دغدغه های بزرگ در زمینه زبانشناسی محاسباتی(1) با نام برچسبگذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسبگذاری ادات سخن که یکی از پایهایترین نیازهای پردازش هوشمند متن به شمار میآید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسبگذاری قوی برای زبان فارسی، جزو اولویتهای کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مساله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه های برچسبگذاری به کاربرده میشود؛ برای نمونه، در برچسبگذار TNT[2] که یکی از قویترین برچسبگذارها در زبانهای مختلف است[4, 5, 8]. طبق آزمایشهای انجام شده ما، با استفاده از این برچسبگذار میتوان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.
خلاصه ماشینی:
ir اندازه قلم / / چاپ پست الکترونیکی چکیده در این مستند، به یکی از دغدغه های بزرگ در زمینه زبانشناسی محاسباتی(1) با نام برچسبگذاری ادات سخن (part of speech tagging) پرداخته شده است.
این تکنیک در بسیاری از شیوه های برچسبگذاری به کاربرده میشود؛ برای نمونه، در برچسبگذار TNT[2] که یکی از قویترین برچسبگذارها در زبانهای مختلف است[4, 5, 8].
برچسبگذاری ادات سخن متن (Text Part-Of-Speech Tagging) برچسبگذاری ادات سخن، به معنای به دست آوردن گونه صرفی کلمات یک متن است.
(رجوع شود به تصویر صفحه) جدول 1: یک نمونه ساده از مجموعه برچسبهای گونه صرفی کلمه برچسبهای معادل کلمات در عبارت «اولین سیاره خارج از منظومه شمسی دیده شد » به صورت ذيل خواهد بود: (رجوع شود به تصویر صفحه) کارهای گذشته در سالهای اخیر، کارهای زیادی در زمینه برچسبگذاری متون فارسی انجام شده است.
(رجوع شود به تصویر صفحه) جدول 3: میزان دقت، بازخوانی و معیار F بهازای کل پروژه علت برابر شدن سه مقدار فوق، برچسب خوردن تمامی کلمات خروجی و نبود کلمه بدون جواب است.