چکیده:
ترکیبات شیمیایی مختلفی در صنعت مورد استفاده قرار میگیرند. بسیاری از صنایع از نتایج حاصل از ترکیبات شیمیایی نگه داری میکنند. در این حالت نگهداری و استفاده از داده های شیمیایی موجود یک چالش را بوجود می آورد. اگر میزان این داده های شیمیایی زیاد شود، به مدلی برای خوشه بندی داده ها نیاز میشود تا بتواند داده های ترکیبات مختلف را جداسازی کند. خوشهبندی یافتن دادههای دارای ویژگی-های نظیرهم، در خوشه های مجزا و بدون داشتن اطلاعات اولیه از داده های موجود است. در صنایع شیمیایی، امکان آنکه برای تمام دادههای ترکیبات شیمیایی برچسب گذاری انجام شود، وجود ندارد زیرا هر لحظه ممکن است بوجود بیایند یا تغییر کنند. در این حالت بایستی از خوشه بندی استفاده شود که عمل تقسیم داده های شیمیایی به تعدادی از زیر مجموعه ها را انجام میدهد. از دیدگاه داده کاوی تشخیص داده های شیمیایی جزء مسائل حوشه بندی داده ها محسوب میشود. با معرفی الگوریتمهای مناسب در این زمینه و سپس تلاش برای افزایش کارایی و میزان درستی اطلاعات شیمیایی، میتوان به سمت ایجاد سیستمهای مکانیزه با قابلیت اعتماد بالا با توانایی کشف الگوهای پیچیده گام برداشت. در اینجا یک سری دادههای ترکیبات شیمیایی صنایع مختلف جمع آوری شده و با کمک یک مدل ترکیبی مناسب عمل خوشه بندی انجام میشود. روش پیشنهادی یک مدل ترکیبی از نزدیکترین همسایگی با کمک خوشه بندی فازی است. در این مدل داده های شیمیایی موجود، تحت یک عملیات پیش پردازش قرار میگیرند تا داده های نامناسب و تهی از سیستم خارج شوند.
Various chemical compounds are used in industry. Many industries maintain the results of chemical compounds. In this case, maintaining and using existing chemical data poses a challenge. If the amount of this chemical data increases, a model for data clustering is needed to be able to separate the data of different compounds. Clustering Finds data with similar properties in separate clusters without having prior knowledge of the available data. In the chemical industry, it is not possible to label all chemical composition data because they may occur or change at any time. In this case, clustering should be used, which divides the chemical data into a number of subsets. From a data mining point of view, chemical data detection is one of the issues of data marginalization. By introducing appropriate algorithms in this field and then trying to increase the efficiency and accuracy of chemical information, we can take steps to create highly reliable mechanized systems with the ability to detect complex patterns. Here, a series of data on the chemical composition of different industries are collected and clustering is performed with the help of a suitable hybrid model. The proposed method is a hybrid model of the nearest neighborhood using fuzzy clustering. In this model, the existing chemical data is subjected to a preprocessing operation to remove inappropriate and empty data from the system. The clustering operation is then performed with the nearest neighbor model.
خلاصه ماشینی:
در اين حالت بايستي از خوشه بندي استفاده شود که عمل تقسيم داده هاي شيميايي به تعدادي از زير مجموعه ها را انجام ميدهد.
خوشه بندي يکي از شاخه هاي يادگيري بدون نظارت مي باشد و فرآيند خودکاري [٤] است که در طي آن ، نمونه ها به دسته هايي که اعضاي آن مشابه يکديگر مي باشند تقسيم مي شوند که به اين دسته ها خوشه گفته مي شود.
تکنيک هاي داده کاوي در پردازش اطلاعات داراي انواع گوناگون ميباشد که اين تکنيک ها عبارتنداز : ٢-١ - دسته بندي متداولترين تکنيک است و يکسري نمونه هاي از پيش تعيين شده را شامل ميشود که براي توسعه مدل به کار ميرود که بتواند انواعي از موارد ثبت شده را دسته بندي نمايد.
براي روشن شدن مطلب شکل زير را در نظر بگيريد: (رجوع شود به تصویرصفحه) شکل ٢ - مجموعه داده پروانه اي اگر نمونه هاي ورودي مطابق شکل فوق باشند مشخص است که مي توان داده ها را به دو خوشه تقسيم کرد اما مشکلي که پيش ميآيد اين است که داده مشخص شده در وسط ميتواند عضو هر دو خوشه باشد بنابراين بايد تصميم گرفت که داده مورد نظر متعلق به کدام خوشه است ، خوشه سمت راست يا خوشه سمت چپ [٢٤، ٢٥].
استفاده از ايده ي فازي سازي يکي از روش هاي مورد توجه براي خوشه بندي داده ها است که اين امکان را فراهم مي کند.