چکیده:
در تحقیقات مختلف به طور معمول با مسائلی سر و کار داریم که با استفاده از مجموعه ای از متغیرهای توضیحی به پیش بینی رفتار یک متغیر وابسته می پردازیم. یکی از روش های آماری که کاربرد وسیعی در این گونه مسائل دارد رگرسیون چندگانه می باشد. اما هنگامی که بین متغیرهای توضیحی رابطه ی خطی وجود داشته باشد مسئله ی هم خطی چندگانه رخ می دهد و در نتیجه رگرسیون کم ترین توان های دوم معمولی به ایجاد براوردهای نااستواری از ضرایب رگرسیونی می انجامد. رگرسیون کم ترین توان های دوم جزئی یک روش چند متغیره است که در هنگام بروز هم خطی بین متغیرهای توضیحی مورد استفاده قرار می گیرد. در این مقاله به معرفی این روش می پردازیم.
In different researches، we deal with problems that need to predict the behavior of a response variable by a set of explanatory variables. Multiple regression is one of the statistical methods that is widely used in these type of situations. When there is a linear relation between explanatory variables we will faced with multi-collinearity problem that causes ordinary least squares estimators of regression coefficients not to be robust. Partial least squares regression is a multivariate method that used when there is high collinearity between explanatory variables. In this paper، this method is introduced.
خلاصه ماشینی:
در ابتدا متغیر پاسخ روی هریک از متغیرهای توضیحی بهطور جداگانه رگرسیون میشود(گام 2) و چون متغیرها استاندارد هستند معادلات پیشبینی حاصل به صورت زیر میباشند: (به تصویر صفحه مراجعه شود) که با توجه به روش کمترین توانهای دوم معمولی داریم(به تصویر صفحه مراجعه شود) هرکدام از m معادلهی قبل یک براورد برای پاسخ Y به دست میآورند.
میزان اسید موجود در کیوی با استفاده از تجرزیهی شیمیایی اندازهگیری میشود و به عنوان مقادیر متغیر پاسخ هربار روی یک مجموعه از این متغیرهای توضیحی رگرسیون میشود و ضرایب رگرسیونی براورد شده به عنوان مقادیر ???a و 'a در مدل(8)درنظر گرفته میشوند.
تابع زیان مورد استفاده در روش اعتبارسنجی متقابل به صورت زیر تعریف میشود: (به تصویر صفحه مراجعه شود) که در آن i,vc???y پیشبینی i امین مشاهده است هنگامی که در مدل حضور ندارد.
آخرین روش مورد استفاده در این شبیهسازی رگرسیون مؤلفههای اصلی )noissergeR tnenoPmoC laPicnirP( است که به اختصار با RCP نمایش داده میشود و مانند SLP براوردگرهایی اریب از ضرایب رگرسیونی تولید میکند.
او این مقایسه را در پنج سطح مختلف واریانس خطا با مقادیر 10،3،7،1-؟؟؟با استفاده از مدلهایی شامل50،20،8- P متغیر توضیحی انجام داد و با استفاده از شبیهسازی تعداد(40+ P )داده در 500 تکرار آزمایش برای هر اندازهی مدل و واریانس خطا،متوسط زیان حاصل از چهار روش رگرسیونی را مورد بررسی قرار داد.
او با استفاده از شبیهسازی دادههای علوفه نشان داد زمانیکه تعداد متغیرهای توضیحی خیلی زیاد و واریانس خطای تصادفی نیز بزرگ است روش SLP عملکرد خوبی نسبت به روشهای دیگر دارد و در این حالت معادلات پیشبینی بهتری نسبت به دیگر روشهای رگرسیونی بنا میکند.