Abstract:
یکی از ابزارهای بررسی عملکرد آزمون، کنش افتراقی سوالات (Differential item functioning) میباشد. این روش، میتواند عوامل تاثیرگذار بر عملکرد آزمودنی ها را پیدا کرده و از بروز سوگیری در آزمون جلوگیری نماید. طی دو دهه گذشته ، روشهای زیادی برای تشخیص پیشنهاد شده است. تعدد روش های تشخیص عملکرد افتراقی سوال گاه باعث سردرگمی پژوهشگران میشود. از سوی دیگر، امکان مقایسه یافتههای پژوهشهایی که با روشهای مختلف به بررسی کنش افتراقی سوال پرداختهاند را دشوار میسازد. مطالعه حاضر به بررسی و مقایسه نتایج به دست آمده از سه روش تشخیص کنش افتراقی سوال پرداخته است: مدل رش ، رگرسیون لجستیک و منتل-هنزل (MH). داده های استفاده شده در تحلیلها برگرفته از آزمون توانش انگلیسی دانشگاه تهران (UTEPT) میباشد که یک آزمون با اهمیت ویژه است و سالانه برای داوطلبان دکترا برگزار میشود. تجزیه و تحلیل کنش افتراقی یکنواخت با سه روش فوقالذکر نشان داد که سوال ها در عملکرد خود تفاوتهای زیادی ندارند. نتایج تحلیل رگرسیون لجستیک، دو سوال را برای وجود کنش افتراقی پیدا کرد که مشابه روش منتل-هنزل می باشد. همچنین سوالاتی به عنوان نشانگر های کنش افتراقی قوی در مدل رش شناسایی شده بودند همان سوالات بودند که در دو مدل دیگر نیز معرفی گردیده بودند. نتایج پژوهش حاضر نشان میدهد که استفاده از روشهای مختلف برای بررسی وجود کنش افتراقی سوال الزاما نتایج متفاوتی را در پی ندارد و میتوان از هر یک از روشهای استفاده شده در این پژوهش بهره گرفت.
Differential item functioning(DIF) is considered to be one of the tools for the examination of test performance. This method is capable of finding the factors affecting the subjects’ performance and preventing the occurrence of bias in the test. A plethora of methods for detecting Differential Item Functioning has been suggested during the last couple of decades. The multiplicity of methods for diagnosing DIF sometimes is a confusing issue for researchers and it complicates the comparability of the findings of each method. This study has aimed to investigate the comparability of results from three widely used DIF detection techniques: the Rasch model, Logistic Regression, and Mantel-Haenszel (MH). The data comes from an administration of the University of Tehran English Proficiency Test (UTEPT) which is a high-stakes test administered annually to PhD candidates. An analysis of DIF by the three techniques indicated that the items had not significant differences in their performance. The Mantel-Hansel model flagged two items having DIF just similar to the findings of logistic regression model. Likewise, the items that were detected as strong-DIF items in Rasch model were the same as items detected by the two aforementioned models. Thus, it could be stated that logistic regression and Rasch model are among the best models for the assessment of DIF in language tests. It is promising that the application of such methods into the validation process of the tests would increase the quality of assessment and meet the needs for having a fair and justifiable results.