Abstract:
هدف اصلی این مقاله معرفی روشی جهت شناسایی نقاط دورافتاده در مجموعه
دادههای چندمتغیره است. روش استوار به کار گرفته شده در این مقاله روش ماتریس
کوواریانس با کمترین دترمینان! (MCD) است. به علاوه به دو ویژگی مهم براوردگرهای
استوار یعنی نقطه فروریزش و تابع نفوذ اشاره میکنیم. سپس به معرفی عامل سازگاری و
عامل تصحیح نمونهی متناهی در براوردگر MCD خواهیم پرداخت. در پایان با ارایهی
یک مثال کاربردی کارایی روش MCD را با روش کلاسیک در رابطه با شناسایی دادههای
دورافتاده بررسی می نماییم.
The main object of this paper is to introduce a method to identify outliers in multivariate data set. The robust method which is reviewed in this paper is Minimum Covariance Determinant (MCD). Then، two important characteristics of the robust estimators، i.e. the breakdown point and the influence function، are defined. We also present the consistency and finite–sample correction factors for the MCD estimator. Finally، it is shown that MCD method is better than a classical method for detecting outliers of a real data set.
Machine summary:
روس استوار به کار گرفته شده در این مقاله روش ماتریس کوواریانس با کمترین دترمینان1 )DCM( است.
از روشهای استوار برای شناسایی دادههای دورافتاده در مدلهای آماری چند متغیره میتوان به براوردگرهای M ،براوردگرهای S براوردگر با کمترین حجم بیضیگون3 )EVM( و براوردگر ماتریس کوواریانس با کمترین دترمینان )DCM( اشاره نمود.
مسئلهایی که نباید آن را از نظر دور داشت این است که روشهای استوار زیادی ارایه شده است،اما تنها برخی از آنها در شناسایی و لحاظ کردن مشاهدات دورافتاده به خوبی عمل میکنند.
در مقابل،روشهای استوار مستلزم محاسبات پیچیده بوده اما نتایج دقیقتری به همراه دارند و آمارشناسان نیز همواره به دنبال روش قابل اطمینانی برای شناسایی نقاط دورافتاده در مجموعه دادههای چند متغیره هستند.
در بخش دوم این مقاله نگاهی به روش کلاسیک شناسایی مشاهدات دورافتاده در مجموعه دادههای چند متغیره خواهیم داشت.
این معیار کلاسیک که فاصلهی ماهالانوبیس4 نام دارد،از یک نقطهی؟؟با بردار مکان؟؟با ماتریس مقیاس معلوم C (ماتریس متقارن مربعی و معین مثبت با بعد p )به صورت زیر تعریف میشود: (به تصویر صفحه مراجعه شود) در این رابطه،بردار میانگین؟؟و ماتریس کوواریانس )S( به دست آمده از نمونه را به ترتیب به عنوان بردار مکان )T( و ماتریس مقیاس )C( که در(1)آمده است به کار میگیریم.
در این مقاله روش ماتریس کوواریانس با کمترین دترمینان )DCM( معرفی شده که توسط روسو[6]ارایه شده است.
البته با توجه به کشلهای 2 و 3 دیده میشود که قبل و پس از اعمال عامل تصحیح نمونهی متناهی تنها 7 نقطه از مشاهدات قرار گرفته بالای نقطهی برش فواصل استوار (به تصویر صفحه مراجعه شود) بزرگی داشته و به طور آشکاری دورافتاده هستند.