چکیده:
مقدمه: در عصرحاضر، حجم عظیمی از اطلاعات موجود در محیط وب، اسناد و مقالات متنی هستند. متن کاوی، روشی برای استخراج اطلاعات غیرساختیافته و نیمهساختیافته از این حجم اطلاعات موجود در اینترنت و نیز، فرآیند استخراج دانش و الگوهای ناشناخته و غیرقابل فهم و بالقوه، از میان انبوه مجموعههای دادههای متنی است.روشها: این پژوهش از نوع مطالعات کتابخانهای است. با اینکه روشهای متنکاوی اکثراً بر روی منابع لاتین انجام گرفته-اند، اما با جستجو در پایگاههای اطلاعاتی فارسی، درمییابیم طی یک دهه گذشته، موضوع متنکاوی برای محققان ایرانی به-خصوص دانشجویان رشتههای علوم کامپیوتر و فناوری اطلاعات، اهمیتی دوچندان پیدا کرده است؛ به طوری که بخش قابل توجهی از مقالات کنفرانسهای مربوط به علوم و فنون کامپیوتر را مقالات مربوط به این حوزه تشکیل میدهند.یافتهها: یافتههای پژوهش نشان میدهد که متنکاوی، کاربردی از دادهکاوی است و تفاوت اصلی این دو، استخراج الگوها از متنی با زبان طبیعی در متن کاوی است درحالیکه دادهکاوی بر روی پایگاه دادههای ساختیافته عمل میکند. فرایندهای متنکاوی دارای دو فاز اصلی پیشپردازش مستندات و استخراج دانش هستند. تاکنون هشت تکنیک نیز برای متنکاوی معرفی شده است که عبارتنداز: استخراج اطلاعات، بازیابی اطلاعات، خلاصهسازی متن، طبقهبندی، خوشهبندی، بصری-سازی، پردازش زبان طبیعی و عقیدهکاوی.نتیجهگیری: در سالیان اخیر، توجه بسیار زیادی در حوزه بینالمللی و ملی به متنکاوی شده است. افزایش چشمگیر دادههای متنی، پژوهشگران را بر آن داشته است که به دنبال روشهایی جهت کاوش در این دادهها باشند. طبیعی است که محققان ایرانی نیز ازین امر مستنثنا نبودهاند. متنکاوی به همراه تمامی روشها و تکنیکهای آن، کوششی است که پژوهشگران را در استخراج دانش و اطلاعات مفید و باارزش از انبوه متون غیرساختیافتهای که در محیط اینترنت پراکندهاند، یاری میکند.
Nowadays, a huge amount of available information on the web is text documents and
articles. Text mining is a way to extract unstructured and semi-structured information
from this available information on the Internet and Also, mining process of the text of
knowledge and unknown, incomprehensible and potential patterns among the multitude
of datasets.
This research is a type of library studies. Although text mining methods are mostly based
on Latin sources, but by searching Persian databases, we have found over the past decade,
the subject of text mining has become doubly important for Iranian researchers, especially
students of computer science and information technology; So that a significant part of the
conference papers related to computer science and technology are articles related to this
field.
Research findings show that text mining is an application of data mining and the main
difference between them is : the extraction of patterns from text with natural language in
text mining, while data mining operates on structured databases. Text mining processes
have two main phases: document preprocessing and knowledge extraction. So far, eight
techniques have been introduced for text mining which are: Information extraction,
information retrieval, text summarization, classification, clustering, visualization, natural
language processing and belief mining.
In recent years, much attention has been paid to text mining in the international and
national spheres. The dramatic increase in textual data has prompted researchers to look
for ways to explore this data. Naturally, Iranian researchers have been no exception. Text
mining, with all its methods and techniques, is an effort to assist researchers in extracting
useful and valuable knowledge and information from the mass of unstructured texts
scattered throughout the Internet.