ارائۀ روشی ساختارمحور برای ایجاد پایگاه داده از تصاویر مستخرج از اسناد علمی؛ مورد مطالعۀ: پایگاه اطلاعات علمی ایران (گنج) مقالة

مؤلف: فخرزاده، آزاده ؛ صدیقی، امیرحسین ؛

پردازش و مدیریت اطلاعات بهار 1399 - شماره 99 التصنيف عالمي (Ministry of Science/ISC (‎25 صفحة - من 729 إلی 753 )

الکلمات المفتاحية: فناوری اطلاعات پردازش تصویر استخراج تصویر استخراج فراداده Image Extraction Metadata Extraction Information technology Image Processing

fa en

خلاصة:

تصاویر موجود در مدارک علمی اغلب حاوی اطلاعات مهمی هستند. اولین قدم برای بازیابی اطلاعات از این تصاویر ایجاد یک پایگاه داده معتبر از آن‌هاست. به این منظور در این مقاله سیستمی خودکار برای ایجاد پایگاه داده از تصاویر موجود در مدارک علمی فارسی در مقیاس بزرگ ارائه می‌شود. این سیستم پیشنهادی به‌دنبال مطالعات اسنادی طراحی شده و بخش‌های مختلفی دارد. در مرحله اول باید تصاویر و توضیح متنی آن‌ها استخراج گردد. به‌طور کلی، دو رویکرد برای استخراج تصاویر و توضیح متنی آن‌ها از فایل وجود دارد. در رویکرد اول، فایل به تصویر تبدیل می‌شود و از تکنیک‌های پردازش تصویر برای استخراج اطلاعات گرافیکی استفاده می‌شود. رویکرد دوم، بر اساس پردازش ساختار و آرایش خود فایل است. از آنجا که روش دوم از لحاظ سرعت و قابلیت مقیاس‌پذیری برای استفاده در موتورهای جست‌وجو مناسب‌تر است، تمرکز این مقاله بر روی روش دوم است. بدین‌ترتیب، برای استخراج تصاویر و توضیح متنی آن‌ها از یک روش ساختارمحور استفاده می‌شود که مبتنی بر چیدمان و آرایش فایل ورد سند است. در نتیجه، مجموعه‌ای از تصاویر به ‌همراه توضیحات و اطلاعات مربوط به آن‌ها به‌دست می‌آید که باید در یک پایگاه داده تصاویر با ساختاری مشخص ذخیره گردند. سپس، این اطلاعات برای بازیابی و استفاده‌های آتی در یک موتور جست‌وجو نمایه خواهند شد. روش پیشنهادی در زبان برنامه‌نویسی «پایتون» پیاده‌سازی شد و برای ارزیابی کارایی آن از روش مرسوم پردازش فایل «پی‌دی‌اف» اسناد کمک گرفته شد. سپس، روش پیشنهادی در یک مطالعه موردی در «پایگاه اطلاعات علمی ایران (گنج)» به‌کار گرفته شد. تعداد 150 مدرک علمی به تصادف از «پایگاه گنج» انتخاب شده و با‌ کمک این دو روش مورد تجزیه و تحلیل قرار گرفت. بنا به یافته‌های پژوهش دیده می‌شود که استخراج اطلاعات متنی از فایل «پی‌دی‌اف» در زبان فارسی با چالش‌های زیادی روبه‌روست و نمی‌تواند خروجی مناسبی در این زمینه حاصل کند. از طرف دیگر، میزان تصاویر نامطلوب تولیدشده از فایل «پی‌دی‌اف» بسیار زیاد است که از کاربست‌پذیری آن در شرایط واقعی می‌کاهد. از این رو، روش پیشنهادی به‌عنوان گزینه‌ای مناسب برای استخراج تصویر و توضیحات آن‌ها از اسناد علمی در زبان فارسی و ایجاد پایگاه داده از آن‌ها پیشنهاد می‌شود. روش پیشنهادی قادر است حدود 40 درصد تصاویر را همراه با زیرنویس مربوطه بدون خطا استخراج کند و نسبت به روش پایه که قادر به استخراج 30 درصد از تصاویر است، کارایی بهتری دارد.

استلام ملف الإرجاع :
(پژوهیار, , , )

تحميل HTML
تحميل

دخول / الاشتراک

تحتاج الدخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.

دخول

الاشتراک

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

رابط قصير: