Abstract:
کاوش قواعد همآیی توزیعشده یکی از روشهای مهم دادهکاوی است که وابستگی بین اقلام دادهای را از منابع دادهای غیرمتمرکز، بدون توجه به مکان فیزیکی آنها و بر مبنای فرآیند استخراج اقلام مکرر استخراج میکند. هنگامیکه الگوریتمهای کاوش روی دادههای بزرگمقیاس اجرا میشوند، مقدار زیادی اقلام مکرر تولید میگردد که بسیاری از آنها غیرمرتبط، مبهم و غیرقابل استفاده برای کسب و کار است و سبب بروز چالشی به نام " انفجار ترکیبی" خواهد شد. در این مقاله یک روش ائتلافی جدید مبتنی بر دادهکاوی توزیع شده و هستانشناسی دامنه که بهاختصار DARMASO نامیده میشود برای برخورد با این چالش پیشنهاد شده است. این روش از سه الگوریتم به نام ARMASOMAIN جهت هدایت و کنترل فرآیند کاوش و تجمیع قواعد همآیی، DARMASOPRU برای کاهش و هرس دادهها و الگوریتم DARMASOINT برای کاوش و تجمیع قواعد همآیی تولیدشده از منابع دادهای توزیعشده استفاده میکند. DARMASO از یک الگوی محاسباتی توزیعشده مبتنی بر چارچوب نگاشت-کاهش در محیط توزیعشده چندعاملی استفاده میکند. همچنین یک روش عملی را برای کاوش معنایی از مجموعه دادههای بزرگمقیاس فراهم میکند. این روش، قواعد همآیی را مبتنی بر اهداف دادهکاوی و نیاز کاربر فیلتر کرده و فقط قواعد مفید را تولید و نگهداری میکند. کاهش فضای کاوش و فیلترسازی قواعد، با فرآیند هرس معنایی در قالب حذف نامزدهای نامناسب از مجموعه اقلام مکرر و تولید قواعد همآیی سودمند حاصل میشود. پیادهسازی با استفاده از یک مجموعه دادهای از دامنه حوادث طبیعی و کلاس زمینلرزه انجام شده است. نتایج ارزیابی با استفاده از معیارهای کمی و کیفی نشان میدهد، الگوریتمهای ارائهشده در DARMASO، فضای کاوش را به میزان قابل توجهی کاهش میدهد. همچنین سرعت و کیفیت استخراج قواعد را بهبود بخشیده و قواعد کاربردی، مطمئن، منطقی، با کیفیت و ارزشمندی را برای پشتیبانی از تصمیمگیری از میان انبوه دادهها تولید میکند.
Distributed association rules mining is one of the most important data mining methods that extracts the inter dependence of data items from decentralized data sources, regardless of their physical location and is based on the process of extracting repeated items. When exploration algorithms are implemented on large-scale data, a large number of recurring items are produced, many of which are irrelevant, ambiguous, and unusable for the business, thus causing a challenge called "combination explosion ". In this paper, a new coalition method based on distributed data mining and domain archeology, abbreviated to DARMASO, is proposed to address this challenge. This method uses three algorithms: the DARMASOMAIN algorithm to guide and control the process of exploration and aggregation of universal rules, the DARMASOPRU algorithm to reduce and prune the data and the DARMASOINT algorithm to explore and aggregate the rules of all the generated data sources. DARMASO uses a map-reduce-based distributed computational model in a multi-agent distributed environment. It also provides a practical way for semantic mining of large-scale data sets. This method filters out the association rules of generality based on the purposes of data mining as well as the needs of the user and only produces and maintains useful rules. Reducing the scope of exploration and filtration of rules is achieved through the process of semantic pruning in the form of removing inappropriate candidates from the set of frequent items and producing association rules of utility. The implementation is performed using a data set from the scope of natural disasters and the earthquake class. It also improves the speed and quality of rule extraction and generates practical, reliable, logical, quality and valuable rules to support decision-making amid the masses of data.