Skip to main content
فهرست مقالات

شناسایی واژه های غیر مفهومی رایج در نمایه سازی خودکار مدارک فارسی

نویسنده:

علمی-پژوهشی (وزارت علوم)/ISC (28 صفحه - از 9 تا 36)

کلیدواژه ها :

نمایه سازی خودکار ،واژه های غیر مفهومی ،واژه های بازدارنده ،ساخت واژگانی زبان فارسی

کلید واژه های ماشینی : نمایه‌سازی خودکار مدارک فارسی ، زبان فارسی ، شناسایی ، واژه‌های غیرمفهومی در زبان فارسی ، پژوهش ، فهرست ، روانشناسی ، واژه‌های غیرمفهومی ، دستور زبان فارسی ، متن

پژوهش حاضر با هدف شناسایی واژه­های غیرمفهومی در زبان فارسی و تهـیه سیاهه­ای از این واژه­ها برای نمایه­سازی خودکار متنهای فارسی در رشته­های روانشناسی، علوم­تربیتی و کتابداری و اطلاع­رسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفته­است. جامعه آماری این پژوهش را مقاله های مندرج در آخرین شماره منتشر­شده در مجله های علمی و پژوهشی رشته­های علـوم­تربیتی، روانشناسی و کتابداری و اطلاع­رسانی در سال 1385 تشکیل می دهد. نمونه شامل 63 مقاله است. گردآوری داده­ها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراه­شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی به­عنوان واژه نمایه­ها ظاهر نمی­شوند، بنابراین، آنها را می­توان واژه­های غیرمفهومی یا به اصطلاح واژه­های بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشته علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژه­های غیرمفهومی تشکیل می­دهد. 3- واژه­های بازدارنده پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکره زبانی مورد مطالعه را تشکیل می­داد، 97280 واژه که 94/38% کل واژه ها را شامل می­شود، جزء واژه­های بازدارنده هستند.5- نتیجه مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژه­های بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژه­ها فاقد توزیع بسامدی یکسان در سه رشته مورد مطالعه می­باشند.


برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.