خلاصة:
تصاویر موجود در مدارک علمی اغلب حاوی اطلاعات مهمی هستند. اولین قدم برای بازیابی اطلاعات از این تصاویر ایجاد یک پایگاه داده معتبر از آنهاست. به این منظور در این مقاله سیستمی خودکار برای ایجاد پایگاه داده از تصاویر موجود در مدارک علمی فارسی در مقیاس بزرگ ارائه میشود. این سیستم پیشنهادی بهدنبال مطالعات اسنادی طراحی شده و بخشهای مختلفی دارد. در مرحله اول باید تصاویر و توضیح متنی آنها استخراج گردد. بهطور کلی، دو رویکرد برای استخراج تصاویر و توضیح متنی آنها از فایل وجود دارد. در رویکرد اول، فایل به تصویر تبدیل میشود و از تکنیکهای پردازش تصویر برای استخراج اطلاعات گرافیکی استفاده میشود. رویکرد دوم، بر اساس پردازش ساختار و آرایش خود فایل است. از آنجا که روش دوم از لحاظ سرعت و قابلیت مقیاسپذیری برای استفاده در موتورهای جستوجو مناسبتر است، تمرکز این مقاله بر روی روش دوم است. بدینترتیب، برای استخراج تصاویر و توضیح متنی آنها از یک روش ساختارمحور استفاده میشود که مبتنی بر چیدمان و آرایش فایل ورد سند است. در نتیجه، مجموعهای از تصاویر به همراه توضیحات و اطلاعات مربوط به آنها بهدست میآید که باید در یک پایگاه داده تصاویر با ساختاری مشخص ذخیره گردند. سپس، این اطلاعات برای بازیابی و استفادههای آتی در یک موتور جستوجو نمایه خواهند شد. روش پیشنهادی در زبان برنامهنویسی «پایتون» پیادهسازی شد و برای ارزیابی کارایی آن از روش مرسوم پردازش فایل «پیدیاف» اسناد کمک گرفته شد. سپس، روش پیشنهادی در یک مطالعه موردی در «پایگاه اطلاعات علمی ایران (گنج)» بهکار گرفته شد. تعداد 150 مدرک علمی به تصادف از «پایگاه گنج» انتخاب شده و با کمک این دو روش مورد تجزیه و تحلیل قرار گرفت. بنا به یافتههای پژوهش دیده میشود که استخراج اطلاعات متنی از فایل «پیدیاف» در زبان فارسی با چالشهای زیادی روبهروست و نمیتواند خروجی مناسبی در این زمینه حاصل کند. از طرف دیگر، میزان تصاویر نامطلوب تولیدشده از فایل «پیدیاف» بسیار زیاد است که از کاربستپذیری آن در شرایط واقعی میکاهد. از این رو، روش پیشنهادی بهعنوان گزینهای مناسب برای استخراج تصویر و توضیحات آنها از اسناد علمی در زبان فارسی و ایجاد پایگاه داده از آنها پیشنهاد میشود. روش پیشنهادی قادر است حدود 40 درصد تصاویر را همراه با زیرنویس مربوطه بدون خطا استخراج کند و نسبت به روش پایه که قادر به استخراج 30 درصد از تصاویر است، کارایی بهتری دارد.
Figures in scientific documents are rich sources of information. The first step in retrieving information from such figures is to build a valid figure database. To this end, we developed a system for generating figure database from scholarly Persian documents, in large scale. The first step is to parse files and extract figures and their corresponding descriptions. There are two general approaches for extracting figures from documents. One is based on image processing methods and another is based on processing the file primitives. The focus of this paper is on latter one. This approach is shown to be a better choice for the search engines because of its speed and scalability properties. We propose a structure based method that extracts the figures and their descriptions by analyzing the file layout. This information is saved in a database with a specific structure and is indexed for retrieval in the search engine.
The proposed algorithm was implemented in Python programming language. As a benchmark we used the basic method in the literature which is based on the processing PDF file. We employed the proposed method in a case study on Iran scientific information database (Ganj). In this regard, 150 scientific documents were randomly chosen from Ganj database and analyzed using two mentioned methods. Based on our experimental results, the proposed method is more efficient than the basic method especially for Persian documents. There are many unanswered challenges for Persian documents when using the basic method. The number of noise images resulted from the basic method is high and Persian text extracted is not well organized. Our proposed method overcomes some of these drawbacks and is recommended for generating figure database from scientific Persian documents. The proposed method is able to correctly extract about 40% of the images with their corresponding descriptions which is 10% better than the basic method.