Skip to main content
فهرست مقالات

شناسایی واژه های غیر مفهومی رایج در نمایه سازی خودکار مدارک فارسی

نویسنده:

علمی-پژوهشی/ISC (28 صفحه - از 9 تا 36)

کلیدواژه ها :

نمایه سازی خودکار ،واژه های غیر مفهومی ،واژه های بازدارنده ،ساخت واژگانی زبان فارسی

کلید واژه های ماشینی : نمایه‌سازی خودکار مدارک فارسی ، زبان فارسی ، شناسایی ، واژه‌های غیرمفهومی در زبان فارسی ، پژوهش ، فهرست ، روانشناسی ، واژه‌های غیرمفهومی ، دستور زبان فارسی ، متن

پژوهش حاضر با هدف شناسایی واژه­های غیرمفهومی در زبان فارسی و تهـیه سیاهه­ای از این واژه­ها برای نمایه­سازی خودکار متنهای فارسی در رشته­های روانشناسی، علوم­تربیتی و کتابداری و اطلاع­رسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفته­است. جامعه آماری این پژوهش را مقاله های مندرج در آخرین شماره منتشر­شده در مجله های علمی و پژوهشی رشته­های علـوم­تربیتی، روانشناسی و کتابداری و اطلاع­رسانی در سال 1385 تشکیل می دهد. نمونه شامل 63 مقاله است. گردآوری داده­ها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراه­شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی به­عنوان واژه نمایه­ها ظاهر نمی­شوند، بنابراین، آنها را می­توان واژه­های غیرمفهومی یا به اصطلاح واژه­های بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشته علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژه­های غیرمفهومی تشکیل می­دهد. 3- واژه­های بازدارنده پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکره زبانی مورد مطالعه را تشکیل می­داد، 97280 واژه که 94/38% کل واژه ها را شامل می­شود، جزء واژه­های بازدارنده هستند.5- نتیجه مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژه­های بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژه­ها فاقد توزیع بسامدی یکسان در سه رشته مورد مطالعه می­باشند.

خلاصه ماشینی:

"این مجله ها از فهرست مجله های مورد تأیید وزارت علوم، تحقیقات و فناوری در همین سال شناسایی شد که به شرح ذیل است: ·پژوهش در مسائل تعلیم و تربیت/ انجمن ایرانی تعلیم و تربیت ·نوآوریهای آموزشی/ وزارت آموزش و پرورش ·آموزش عالی ایران/ انجمن آموزش عالی ایران ·پژوهش و برنامه‌ریزی در آموزش عالی/ مؤسسه پژوهش و برنامه‌ریزی آموزش عالی ·روانشناسی و علوم‌تربیتی/ دانشگاه تهران ·روانشناسی و علوم‌تربیتی/ دانشگاه تبریز ·علوم تربیتی و روانشناسی/ دانشگاه شهید چمران ·مطالعات تربیتی و روانشناسی/ دانشگاه فردوسی مشهد ·پژوهشهای روانشناختی/ رضا زمانی (بخش خصوصی) ·تازه‌ها و پژوهشهای مشاوره/ انجمن مشاوره ایران ·روانشناسی/ انجمن ایرانی روانشناسی ·کتابداری و اطلاع‌رسانی/ کتابخانه مرکزی و مرکز اسناد آستان قدس رضوی با استفاده از جدول تعیین حجم نمونه مورگان، برای 73 عنوان مقاله (کتابداری 20 عنوان، روانشناسی 22 عنوان و علوم‌تربیتی 31 عنوان مقاله) حجم نمونه پژوهش 63 عنوان مقاله است؛ و از آنجا که تعداد مقاله های سه رشته با هم برابر نبود، تعداد مقاله‌های هر رشته براساس فرمول زیر محاسبه و تعیین شد: تعداد مقاله های هر رشته در نمونه= حجم نمونه× حجم جامعه آن طبقه حجم کل جامعه با روش نمونه‌گیری تصادفی طبقه‌ای، در رشته کتابداری 17 عنوان مقاله، رشته روانشناسی 19عنوان و در رشته علوم‌تربیتی 27 عنوان مقاله انتخاب شد. بررسی توزیع بسامدی واژه های غیرمفهومی شناسایی شده نشان داد تعداد قابل توجهی واژه در این فهرست وجود دارد که بسامد پایینی دارند، بنابراین می توان نتیجه گرفت که استفاده از روش بسامد واژگانی در شناسایی واژه های بازدارنده احتمالا نتواند در زبان فارسی کارایی لازم را داشته باشد."


برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.