چکیده:
هدف پژوهش حاضر شناخت و گروهبندی مهمترین مشکلات کیفیت داده و بازشناخت رویکردهای ارائه شده برای حل این چالش در فرایندکاوی است.روش مورد استفاده در این پژوهش از نوع مرور نظامند میباشد که با هدف واکاوی همه شواهد معتبر برای پاسخگویی به سوالات پژوهش انجام پذیرفته است. در این مطالعه به بررسی و کاوش 102 مطالعه دانشگاهی در بین سالهای 2007 تا 2021 میلادی پرداخته شده است. با مطالعه جامع پژوهشهای گردآوری شده دادهها و شواهد مهم استخراج شده و بدین سان جداول و نمودارهای مورد نیاز ایجاد گردیدند.برآیندها نشان داد که 20 مشکل کیفیت داده که میتوانند در دادههای ورودی پدید آیند در ادبیات مورد کنکاش قرار گرفتهاند. این چالشها در پنج سطح مسیر فرایند، رویداد، مورد، فعالیت و برچسب زمانی طبقهبندی شده و چهار رویکرد بنیادین که برای ارزیابی و حل چالشهای کیفیت داده در فرایندکاوی به کار گرفته شدهاند، تعیین گردیدند که شامل: 1) چارچوبهای ارزیابی کیفیت داده 2) پیشپردازش 3) کشف ناهنجاری 4) تعمیر میباشند. با وجود تلاشهای مناسب برای بهبود کیفیت دادههای ورودی در فرایندکاوی، همچنان توسعه روشهای کارآمد از نظر حافظه و زمان برای دادههای فرایندهای کسب و کار واقعی که همواره از پیچیدگی بالایی برخوردار میباشند، پیشنهاد میگردد.
This paper aims to provide is to identify and categorize the most important data quality problems and determine the approaches proposed to solve this challenge in the process of mining. The method used in this research is a systematic review that has been conducted to analyze all valid evidence to answer the research questions. In this way, we reviewed and explored 102 academic research between 2007 and 2021, including studies published in conferences, journals, and a number of dissertations. The results showed that 20 data quality issues were reviewed in the literature. We categorized these issues into five levels: trace, event, case, activity, and timestamp, and identified four fundamental approaches used by studies to evaluate and address data quality issues in process mining, including: 1) data quality frameworks 2) preprocessing 3) anomaly detection 4) repair. Despite appropriate efforts to improve the quality of process mining input data, it is proposed to explore and develop new methods for high complexity data in real business processes.