چکیده:
در اقتصاد و سایر علوم اجتماعی، پژوهش گران اغلب تمایل به مدل بندی داده های پانلی که در آن واحدهای نمونه ای به طور مکرر در مقاطع زمانی مختلف مشاهده می شوند، دارند. یکی از کاربردهای داده های پانلی براورد نرخ تغییر میانگین متغیر پاسخ در طی زمان است. در تمام آمارگیری ها به ویژه آمارگیری های پانلی، بی پاسخی یک مشکل اساسی است که در داده های علوم اجتماعی و پزشکی به وفور رخ می دهد. این نوع مطالعه ها معمولا با کاهش پاسخگو در دوره های دوم به بعد تولید داده ها مواجه هستند. این امر که منجر به نمونه ی کاهیده می شود سبب کاهش کارایی براوردگرها و غالبا نیز سبب اریبی آن ها می شود. برای برخورد با این مشکل در آمارگیری پانلی روش های «جانهی» و «وزن دهی» گوناگونی وجود دارد که از جمله ی این روش ها، جانهی با الگوریتم EM (Expectation Maximization Algorithm) می باشد. در این مقاله پس از معرفی مفهوم های اولیه آمارگیری پانلی، انواع گم شدگی در آمارگیری های پانلی و ساختارهای گم شدگی، الگوریتم EM به عنوان روشی برای جانهی داده های گم شده معرفی می شود. سپس با استفاده از داده های آمارگیری پانلی خانواری انگلیس (British Household Panel Survey)، روش جانهی با الگوریتم EM با دو روش جانهی دیگر از نظر معیارهای مختلف مقایسه می شود. نتایج این مطالعه نشان می دهد که جانهی متغیر تحت بررسی در آمارگیری پانلی خانواری انگلیس با استفاده از الگوریتم EM وقتی که همبستگی بین دو دوره زیاد باشد، عملکرد بهتری دارد.
In economics and other social sciences، researchers are interested in modeling panel data where sample units iteratively are observed in different occasions. One application of panel data is the estimation of change mean rate of response variable over time. In all surveys especially panel surveys، nonresponse is a serious problem that mostly occurs in social science and medical data. This type of study usually encounters attrition in second wave and the waves after. Nonresponse causes bias and reduces efficiency of estimates. For adjusting this problem in panel survey، there are different “imputation” and “weighting” methods. One of the imputation methods is EM algorithm. In this article after introduction initial concept of panel survey، type of missingness in panel surveys and missing mechanisms، EM algorithm is introduced as a method of imputing missing data. Then by using of British Household Panel Survey data، EM algorithm imputation method is compared with two imputation methods in view of different criteria. Results show when correlation between two waves is high، EM algorithm has better performance than the others.
خلاصه ماشینی:
سپس با استفاده از دادههای آمارگیری پانلی خانواری انگلیس )yevruS lenaP dlohesuoH hsitirB( ،روش جانهی با الگوریتم ME با دو روش جانهی دیگر از نظر معیارهای مختلف مقایسه میشود.
نتایج این مطالعه نشان میدهد که جانهی متغیر تحت بررسی در آمارگیری پانلی خانواری انگلیس با استفاده از الگوریتم ME وقتی که همبستگی بین دو دوره زیاد باشد،عملکرد بهتری دارد.
اگر براورد نرخ تغییر میانگین مد نظر باشد واریانس تغییر میانگین در آمارگیریهای پانلی در دو دوره به صورت زیر محاسبه میشود: (به تصویر صفحه مراجعه شود) که در آن؟؟؟میانگین متغیر پاسخ در دورهی t ام )2,1-t( آمارگیری است.
احتمال گمشدگی واحد i ام در دور دوم آمارگیری به شرط مقدار پاسخ مشاهدهشدهی؟؟؟و مقدار پاسخ گمشدهی؟؟؟ به صورت زیر نشان داده میشود: (به تصویر صفحه مراجعه شود) روبین[11]ساختارهای گمشدگی را به صورت زیر بیان میکند: وقتی که گمشدگی به مقدارهای گمشده و مشاهدهشده وابسته نباشد،گمشدگی کاملا تصادفی )modnaR ta yletelPmoC gnissiM( است.
بعد از روش الگوریتم ME ،روش میانگین مشاهدههای مشابه نتایج خوبی را نشان داده است درحالیکه روش جانهی با نمونهی جدید اصلا عملکرد خوبی نداشته است،همچنین با افزایش نرخ بیپاسخی مقدار همبستگی کاهش مییابد.
با مطالعهی شبیهسازی انجام شده،نتایج زیر حاصل میشود: براساس معیارهای مقایسهی قدرمطلق اریبی نسبی براورد میانگین تغییر و همچنین کارایی آن،وقتی که همبستگی بین دو دوره زیاد باشد روش جانهی با الگوریتم ME نسبت به دو روش جانهی با نمونهی جدید و میانگین مشاهدههای مشابه بهتر عمل میکند.