معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه مقاله

نویسنده: پاک‌نیت، نصراله ؛ حجت‌پناه، علی‌اصغر ؛ زالی، مجتبی ؛ آقالویی آغمیونی، محمدهادی ؛

پژوهش های زبان شناسی تطبیقی پاییز و زمستان 1400 - شماره 22 رتبه ب (وزارت علوم/ISC (‎19 صفحه - از 271 تا 289 )

کلیدواژه ها: پیکره نرمال‌سازی برچسب‌گذاری اجزای واژگانی کلام Part Of Speech (POS) tagging normalization corpus اطلاعات برچسب متن زبان پیکرة متنی واژه

fa en

چکیده:

بسیاری از پژوهش‌های زبان‌شناسی و برنامه‌ریزی‌های زبانی با استفاده از پیکره‌های زبانی انجام می‌شود. در این پژوهش پیکره‌ای با استفاده از متون مقاله‌های پژوهش‌نامة پردازش و مدیریت اطلاعات ساخته شده است. این پیکره شامل بیش از 600 مقاله (بیش از چهار میلیون واژه) است. موضوع این مقاله‌ها کتابداری و اطلاع‌رسانی، علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، زبان‌شناسی، زبان‌شناسی رایانشی، اصطلاح‌شناسی، هستان‌شناسی و سایر حوزه‌های پردازش اطلاعات است. متون مقاله‌ها تخصصی و میان‌رشته‌ای است و برای پردازش‌هایی که مستلزم بهره‌گیری از متون تخصصی است، ارزشمند است. برای ساخت پیکره پس از نمونه‌گیری و وارد کردن داده‌ها در پیکره، فرادادة مقاله‌ها وارد پیکره شد. سپس نرمال‌سازی ماشینی و به دنبال آن برچسب‌گذاری ماشینی (نوعاً برچسب‌گذاری اجزای واژگانی کلام) انجام شد. در نهایت تعداد قابل توجهی از فایل‌های برچسب‌خورده در پیکره به صورت رندوم انتخاب شد و الگوهای زبانی برای اصلاح ماشینی و دستی برچسب‌ها استخراج و در پیکره به کار برده شد.

خلاصه ماشینی:

)، تجزيه و تحليل متن با استفاده از نرم افزار AntConc، ايجاد فهرست فراواني واژه ها، توسعۀ فهرست واژگان حاشيه نويسي شده که خود شامل اين موارد است : تعيين مقولۀ نحوي (POS) واژگان موجود در فهرست ، اضافه کردن تعريف واژگان ، باهم آيي واژگان و نمونه اي از جمله اي که واژه در آن به کار رفته است . در اين پژوهش ، پس از ساخت پيکرة متني، با توجه به کاربرد برچسب اجزاي واژگاني کلام در پردازش متن ، تصميم گرفته شد ايـن نـوع برچسـب هـم بـه پيکره اضافه شود. براي اصلاح برچسب ها از فهرست وندها و واژه بست هاي فارسي (جدول ٣)، برگرفته از مجموعه ١٢ مقالۀ دکتر علياشرف صادقي تحت عنوان «شيوه ها و امکانات واژه سازي در زبان فارسي معاصر ١ تـا ١٢ : ١٣٧٢- ١٣٧٠» و خسرو کشاني (در بحث اشتقاق ) و لازار: ١٣٨٩ و قطره : ١٣٨٦ (در بحـث تصـريف ) اسـتفاده شـده است . (به تصویرصفحه مراجعه شود) شکل ٢: نمونه اي از متن برچسب گذاري شده در پيکره پس از ساخت پيکره ، پيکره در سامانه اي قرار داده شد که داراي ويژگيهاي فني و قابليت هاي زير است : چارچوب اصلي سامانه چارچوب اصلي سامانه ، Net Core. Language-Integrated Query (به تصویرصفحه مراجعه شود) شکل ٣: نمودار جرياني (block diagram) از ماجول هاي ساخت پيکره نتيجه گيري در اين پژوهش ، پيکرة متني ساخته شد که محتواي آن متون مقاله هاي موجود در «پـژوهش نامـۀ پـردازش و مديريت اطلاعات » است .

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود HTML
دانلود PDF

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1402

1401

1400

1399

1398

1397

1396

1395

1394

1393

1392

1391

1388

1387

معرفی یک پیکرة متنی تخصصی: پیکرة پژوهش‌نامه مقاله