چکیده:
منابع با سرعت بسیار زیادی در حال رشد و انتشار هستند و در این میان سهم منابع دیجیتال و وبی بسیار مشهود است. به منظور سازماندهی این منابع، تلاشهایی برای ردهبندی خودکار صورت گرفته که غالبا از الگوریتمهای آماری و یادگیری ماشینی استفاده میکنند. همچنین در برخی منابع، استفاده از ردهبندیهای کتابخانهای نیز توصیه شده است. اصلیترین چالشی که در این زمینه وجود دارد آن است که ردهبندی، فرآیندی انتزاعی و نیازمند تفکر است و تکنیکهای ماشینی و هوش مصنوعی هنوز نتوانستهاند به طور کامل جایگزین ذهن انسان شوند. در این مقاله ضمن بیان اهمیت ردهبندی خودکار به مفاهیم یادگیری ماشینی و تکنیکها و الگوریتمهای پرکاربرد در خوشهبندی و ردهبندی مانند کا- نزدیکترین همسایه، مدل بیز، شبکههای عصبی مصنوعی، یادگیری عمیق، و طبقهبندیهای ترکیبی پرداخته شد. همچنین مراحل ردهبندی خودکار صفحات وب و تکنیکهای مورد استفاده در هر مرحله مورد اشاره قرار گرفت. رسیدن به درک روشنتری از موضوع ردهبندی خودکار، امکان همزبانی با متخصصان حوزه هوش مصنوعی و کامپیوتر را فراهم آورده و زمینهساز پژوهشهای میانرشتهای خواهد بود.
Nowadays, various online resources are growing and disseminating rapidly. In order to organize these resources, attempts have been made to use automatic classification, which often uses statistical algorithms and machine learning. Recently, attention has been drawn to the use of library classifications. The main challenge here is that classification is an abstract, thought-provoking process, and machine techniques and artificial intelligence have not yet been able to completely replace the human mind. In this paper, we provide an overview of the importance of automatic classification, machine learning, and practical algorithms and techniques of clustering and classification like K-nearest neighbor, Bayesian models, artificial neural networks, deep learning, and hybrid classifications. Also, the steps of automatic classification of web pages and the techniques used in each step were mentioned. Achieving a clearer understanding of automatic classification will enable LIS experts to communicate with experts in the field of artificial intelligence and computers. This could pave the way for interdisciplinary research.
خلاصه ماشینی:
به منظور سازماندهی این منابع ، تلاش هایی برای رده بندی خودکار صورت گرفته که غالباً از الگوریتم های آماری و یادگیری ماشینی استفاده میکنند.
اما در این میان این پرسش مطرح میشود که آیا باید این موضوع را پذیرفت و از امر رده بندی منابع وب دست کشید؟ تلاش های صورت گرفته در ارائه روش ها و بهینه سازی روش های رده بندی خودکار، رشد روزافزون منابع در محیط وب و نیازی که برای سازماندهی مؤثر منابع جهت دستیابی و بازیابی مؤثر اطلاعات توسط کاربران ایجاد میشود، نشان از پاسخ منفی به این پرسش است .
رده بندی متن بخش مهمی از متن کاوی و از حوزه های حیاتی پژوهش در پردازش زبان طبیعی ٢ است و به عنوان فرایندی تعریف میشود که یک سند را براساس محتوای متنی و ویژگیهای استخراج شده آن به یک یا مجموعه ای از دسته های از پیش تعریف شده اختصاص میدهند و این فرآیند شامل چهار مرحله است : مرحله پیش پردازش / نمایش اسناد، استخراج ویژگی، انتخاب ویژگی/ تبدیل ویژگی و درنهایت مرحله آموزش و یادگیری / رده بندی (٢٠٢٠ Maw et al).
رده بندی خودکار، فرآیند اختصاص یک سند یا متن به مجموعه ای از کلاس های از پیش تعریف شده به صورت خودکار و با استفاده از روش هایی نظیر یادگیری ماشین است .
به عقیده گولوب ٦ (٢٠٠٦)، یی ٧ (٢٠٠٧) و مارکی (٢٠٠٦)٨، رویکردی ضعیف تر برای رده بندی خودکار متن ٩ وجود دارد که به جامعه علوم کتابداری نسبت داده میشود، کمتر به الگوریتم ها و بیشتر به استفاده از واژگان کنترل شده جامع ، نظیر طرح های رده بندی کتابخانه ای و اصطلاحات کنترل شده ١٠ در رده بندی دستی منابع کتابخانه ای متمرکز است .