استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقاله‎های علمی‎‎پژوهشی دانشگاه فردوسی مشهد مقاله

نویسنده: کامیابی گل، عطیه ؛ اخلاقی باقوجری، الهام ؛ عسگریان، احسان ؛ حبیبی، هانیه ؛

کتابداری و اطلاع رسانی تابستان 1397 - شماره 82 رتبه الف (وزارت علوم/ISC (‎23 صفحه - از 3 تا 25 )

کلیدواژه ها: دانشگاه فردوسی مشهد پیکره زبانی مقاله های علمی پژوهشی برچسب دهی

چکیده:

هدف: پردازش زبان طبیعی، استفاده در فرهنگ نگاری، پیگیری تحولات زبانی و استخراج اطلاعات زبانی خاص از مهم ترین کاربردهای پیکره است. هدف از انجام این پژوهش معرفی و توصیف چگونگی ساخت پیکره مقاله های علمی پژوهشی است که نگارندگان پدید آورده اند. روش: برای ایجاد پیکره، نخست نرم افزار پیکره ساز طراحی و ساخته شد. این نرم افزار انواع فرمت از جمله doc،docx ،rtf ،txt و pdf را پشتیبانی می کند. همچنین می توان پارامترهای ساخت پیکره را از قبل نیز برای آن تعیین کرد. برای مثال، مشخص کرد که حداقل تعداد توکن فایل برای حضور یک متن در پیکره چه عددی باشد. سپس مجموعه مقاله های علمی پژوهشی اعضای هیئت علمی دانشگاه فردوسی مشهد جمع آوری شد. مجموع مقاله های مشتمل بر 7.154.202 کلمه و 1100 عنوان است. کل پیکره در فایل های مجزا به جمله های تشکیل دهنده آن تجزیه شد. ریشه کلمات استخراج و برچسب نحوی کلمات زده شد. علاوه بر امکان استخراج اطلاعات به طور مستقیم، نرم افزار جانبی دیگری با کاربرد ساده تر برای استخراج اطلاعات آماری نیز طراحی و به آن افزوه شد تا کاربران غیرتخصصی هم بتوانند از آن استفاده و اطلاعات را استخراج کنند. یافته: برای ارزیابی درستی ابزارهای ریشه یاب و برچسب زنی مقوله های گفتار، از پیکره های استاندارد موجود مانند پیکره PerDT (در سایت دادگان) که شامل تعداد قابل توجهی جمله برچسب خورده با اطلاعات نحوی و ساخت واژی است استفاده شد. همچنین با مطالعه موردی عبارات احتیاط آمیز (بخشی از طرح پژوهشی که به چاپ نرسیده است) یافته این پژوهش که ساخت پیکره مقاله های علمی پژوهشی است آزمایش و با دقت حدود96% تایید شد. نتیجه: بر اساس نتایج به دست آمده، پیکره ساخته شده قابلیت بسیار بالایی برای داده کاوی و استفاده در تمام پژوهش هایی که بر روی متون علمی انجام می شود را دارا است. با استفاده از این پیکره می توان توصیفی داده محور از نحوه کاربرد زبان توسط گروه های مختلف کاربران زبانی ارائه کرد. با بارگذاری این پیکره در سایت کتابخانه مرکزی دانشگاه فردوسی مشهد، امکان کاربری عام آن به زودی فراهم خواهد شد.

خلاصه ماشینی:

استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقاله‌های علمی‌‌پژوهشی دانشگاه فردوسی مشهد دکتر عطیه کامیابی گل 1 ، دکتر الهام اخلاقی باقوجری 2 ، دکتر احسان عسگریان 3 ، هانیه حبیبی 4 چکیده تاریخ ارسال:7/12/96 _ تاریخ پذیرش:20/2/97 هدف: پردازش زبان طبیعی، استفاده در فرهنگ‌نگاری، پیگیری تحولات زبانی و استخراج اطلاعات زبانی خاص از مهم‌ترین کاربردهای پیکره است. com یافته: برای ارزیابی درستی ابزارهای ریشه‌یاب و برچسب‌زنی مقوله‌های گفتار، از پیکره‌های استاندارد موجود مانند پیکره PerDT (در سایت دادگان) که شامل تعداد قابل‌توجهی جملۀ برچسب‌خورده با اطلاعات نحوی و ساخت‌واژی است استفاده شد. اما زبان فارسی به‌دلیل پیچیدگی‌های زبانی، کمبود منابع و مطالعات انجام‌شده از دیدگاه محاسباتی کمتر مورد توجه پژوهشگران قرار گرفته است و در آثار بسیار اندکی از جمله «شمس‌فرد» (2011) و «فیلی، منشادی، فردرکینگ 2 و لوین 3 »(2014) شاهد آن Granger, Gilquin, &amp; Meunier Frederking Levin هستیم. برای بررسی آمار تعداد تکرار واژگان و برچسب‌های مختلف به‌صورت مجزا یا در کنار هم و استخراج قوانین نحوی و ریخت‌شناسی (ساختار واژگان و ارتباط واژگان در جمله) در متون زبان فارسی از پیکرۀ استاندارد دادگان 2 (رسولی، 2015) استفاده شد. برچسب‌های مورد استفاده در پیکره به تصویر صفحه مراجعه شود بر این اساس، خروجی داده‌های پیکرۀ حاضر به‌صورت شکل3 است. همچنین در این پیکره برای برچسب نقش ادات سخن (نقش کلمات) دو سطح (با جزئیات متفاوت) وجود دارد که با توجه به کاربرد مورد نظر ابزار، سطح اول (نقش کلی کلمه در جمله) در نظر گرفته شده است. The CMU METAL Farsi NLP Approach, in Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), pp.

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود HTML
دانلود PDF

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1402

1401

1400

1399

1398

1397

1396

1395

1394

1393

1392

1391

1390

1389

1388

1387

1386

1385

1384

1383

1382

1381

1380

1379

1378

1377

1376

استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقاله‎های علمی‎‎پژوهشی دانشگاه فردوسی مشهد مقاله