خلاصة:
این پژوهش به بررسی مسائلی پرداخته است که پایگاههای مقالههای فارسی در جستجوی ریختهای مختلف یک کلمه با آن روبرو هستند. برای پاسخگویی به سوالهای پژوهش، از روش پیمایش مقایسهای استفاده شده است. جامعه پژوهش عبارت است از سه پایگاه مقالههای فارسی «مرکز منطقهای اطلاعرسانی علوم و فناوری»، «جهاد دانشگاهی»، و «پژوهشگاه اطلاعات و مدارک علمی ایران». محققان سیاههای شامل 17 کلیدواژه را با دقت در متون فارسی انتخاب نمودهاند که هرکدام از آنها نمایانگر یک مورد از چالشهای زبان فارسی در برخورد با فناوری نوین هستند. سپس کلیدواژهها در جعبه جستجوی پایگاههای مذکور وارد و نتایج هر کدام نیز ثبت گردید. این بررسی نشان داد چالشهای ریختی شناخته شدة زبان فارسی، تاثیر زیادی بر بازیابی اطلاعات در هر یک از سه پایگاه مورد نظر دارد. همچنین، هیچکدام از این سه پایگاه به شیوه ای جامع و قابل ملاحظه به حل مسائل ریخت شناسی واژگان فارسی نپرداخته اند و هر پایگاه به صورت جداگانه از میان 17 چالش پیش رو تنها به رفع تعداد محدودی از آنها پرداخته است.
ملخص الجهاز:
"به طور مثال، به بررسی تأثیری که الف مقصوره و لحاظ یا عدم لحاظ آن در کلمه «اسحاق» داشته است، خواهیم پرداخت: طبق آمار به دست آمده از جدول شماره 1، برای کلمه «اسحاق» در دو شکل نوشتاری مختلف شاهدیم که چنانچه برای نوشتن این کلمه از الف مقصوره استفاده نشود، نتایج به دست آمده در سه پایگاه مرکز منطقهای اطلاعرسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران، و جهاد دانشگاهی به ترتیب تعداد رکوردهای بازیابی شده 97، 37 و 1 می باشد و چنانچه در حالتی دیگر برای نوشتن کلمه «اسحاق» از الف مقصوره استفاده شود و شکل نوشتن این کلمه در جعبه جستجوی پایگاه به شکل «اسحق» باشد، نتیجه متفاوتی به دست خواهد آمد، به طوری که در این حالت رکوردهای بازیابی شده در سه پایگاه مدنظر به ترتیب 20، 14، 2 میباشد.
2- کدام یک از سه پایگاه مورد نظر، چالشهای ریختی ذکر شده را در الگوریتمهای بازیابی خود مورد توجه قرار داده اند؟ بر اساس اطلاعات موجود در جدول شماره 2، شاهدیم که هیچ کدام از سه پایگاه فارسی مورد نظر، به شیوهای جامع چالشهای ریخت شناسی زبان فارسی را در جهت بهبود نتایج کاوش مورد توجه قرار ندادهاند، اگرچه در بعضی موارد تساوی تعداد رکوردهای بازیابی شده در ریختهای مختلف یک واژه را به احتمال قوی میتوان به منزلة رفع آن چالش خاص در الگوریتم بازیابی پایگاه در نظر گرفت، اما نمونههایی از این دست برای هر پایگاه نسبت به حجم مشکلات ریختشناسی موجود، درصد بسیار اندکی را به خود اختصاص می دهد."