چکیده:
استفاده از دادهها بهمنظور کشف رابطه بین آنها اساس دادهکاوی است. یکی از ابزارهای سنجش رابطه، مدلسازی و پیش-بینی استفاده از ابزار آماری رگرسیون است. تکنیکهای رگرسیون یکی از محبوبترین تکنیکهای آماری است که برای دادهکاوی، مدلسازی و پیشبینی مورد استفاده قرار میگیرد. امروزه بهمنظور تحلیل و کشف مدل روی دادههای کلان، روشهای مختلف رگرسیون توسعه یافته است. استفاده از تحلیل رگرسیون در علوم مختلف مانند علوم انسانی، علوم زیستی، فیزیک و شیمی و سایر حوزهها کاربرد بسیاری دارد. اغلب پژوهش گران و تحلیل گران که با مدلهای رگرسیونی سروکار دارند، از دو یا سه روش عمومی مانند رگرسیون خطی، رگرسیون چندکی و رگرسیون لجستیک استفاده میکنند، در حالیکه تکنیکهای رگرسیونی بسیار گسترده میباشند و انواع مختلفی از روشهای رگرسیون بهمنظور تحلیل دادههای کیفی و کمی طراحی شده است. هر تحلیلگر باید بداند که بسته به نوع داده و توزیع از کدام شکل رگرسیون استفاده کند. در این پژوهش 16 نوع رگرسیون معرفی و بررسی شده است و به ارایه راهکارهایی بهمنظور انتخاب صحیح مدل رگرسیون و جلوگیری از مشکلات رایج در این حوزه پرداختهایم.
خلاصه ماشینی:
تکنيک هاي رگرسيون يکي از محبوب ترين تکنيک هاي آماري است که براي مدل سازي، پيش بيني و داده کاوي مورد استفاده قرار ميگيرد و در علوم مختلف مانند علوم انساني ، علوم زيستي ، فيزيک و شيمي و ساير حوزه ها کاربرد بسياري دارد (عريضي ، گل پرور، ١٣٨٨) به صورتي که بخش قابل ملاحظه اي از تحقيقات تجربي با استفاده از مدل هاي رگرسيوني صورت ميگيرد (بدري، ١٣٩٣).
حال سوالي که مطرح ميشود اين است که چگونه مدل رگرسيون صحيح را انتخاب نماييم ؟ قبل از اجراي مدل رگرسيوني بايد به وسيله رسم نمودار يا محاسبه ضريب همبستگي و نظاير آن ، وجود وابستگي بين متغيرها توصيفي با متغير وابسته را مورد بررسي قرار دهيم و درصورتيکه نتايج حاصل از اين ابزارها، نشانگر وجود رابطه (رابطه خطي يا رابطه غيرخطي) بين اين دو دسته متغير باشد، به دنبال ايجاد مدل رگرسيوني باشيم .
بررسي نقاط پرت : ازآنجاييکه وجود نقاط دوراف٣تاده يا پرت ، باعث ميشود که برآورد پارامترهاي مدل رگرسيوني به درستي صورت نگيرد، قبل از اجراي محاسبات مربوط به مدل رگرسيوني بايد از عدم چنين داده هاي اطمينان حاصل پيدا کنيم و اگر به اين گونه مشاهدات برخورديم ، آن ها را از مدل خارج کرده ، سپس دوباره مدل سازي را انجام دهيم .
در اين بخش به معرفي اين چهار معيار کليدي ميپردازيم : ضريب تعين : که به آن ضريب تشخيص ني٣ز گفته ميشود، معمولا با R٢ ن١شان داده ميشود، عددي است بين صفر و يک که اغلب به عنوان معياري براي توصيف قدرت رگرسيون يعني توان پيش بيني درجه تغييرات متغير وابسته در اثر تغييرات متغيرهاي مستقل مورد استفاده قرار مي گيرد.