چکیده:
این مقاله دو تکنیک مختلف پیشگویانه دیتا ماینینگ را باهم مقایسه می کند. یک تکنیک خطی ، حداقل مربعات جزئی "PLS" ویک تکنیک غیر خطی "NLPLS" روی مجموعه هایی از داده های متفاوت ومنحصربه فرد :یک مجموعه دریک خط
مستقیم واقع شونده داده که دراین مقاله مجموعه داده COL نامیده می شود ویک مجموعه داده دیگر که دراین مقاله داده شبیه سازی شده نامیده شد. درآمارو ریاضیات، حداقل مربعات جزئی، اصطلاحا به عنوان یک روش رگرسیونی اریب معرفی می شود. این داده ها منحصر به فردهستندویک ترکیب از مشخصه هایی که درادامه می آیند دارند.
تعدادکمی از متغیرهای پیش بینی کننده، تعدادزیادی متغیرپیش بینی کننده، متغیرهای دریک خط مستقیم واقع شونده وبسیاری متغیرهای زائد. ماهیت این مجموعه ازداده ها، کشف می شوندوکیفیت(خصوصیت) منحصر به فردآنها، معین می شود. دریک دامنه وسیع، این پردازش داده به کاوشگرهاوتحلیل گرها کمک می کندتااینکه یک انتخاب ازتکنیک پیش بینانه برای کاربرد داشته باشند. مساله بزرگ، چگونگی کاهش این متغیرها به تعدادمینیممی است که می تواند به صورت کامل متغیر پاسخگو راپیش بینی کند.
حداقل مربعات جزئی خطی ( PLS )وحداقل مربعات جزئی غیرخطی ( NLPLS )،که بسیاری زمانهاازعملکردهای شبکه عصبی برای نقشه غیرخطی شده استفاده می کنند مدلهایی هستند که درهرمجموعه ازداده می توان به کاربرد.
هرتکنیک روشهای متفاوتی از استفاده دارد.این روشهای متفاوت، درابتداروی هرمجموعه داده استفاده می شد وبهترین روش برای مقایسه جهانی بادیگرتکنیکها برای همان مجموعه داده درهرتکنیک موردملاحظه بود.
هدف از این شناسایی تکنیکی هست که بهترین عملکردرابرای یک نوع مجموعه دردسترس از داده، داردوازآن به جای استنادکردن به رویکردمعمول سعی وخطا به طور مستقیم استفاده می شود.زمانیکه این فرآیند به صورت کارا، درساخت به کاررود، مدلها برای پیش گویی یا پیش بینی طرح کسب وکار، زمان تدارک راکاهش خواهندداد.
کاردراین مقاله تحقیقی، همچنین درشناسایی عملکرد داده کاوی خیلی مهم پیش بینانه واندازه گیریها یا ضوابط ارزیابی مدل ، مفیدخواهدبود.