چکیده:
تقلب های بیمه ای از مسائل مهم و خسارت زا برای شرکت های بیمه و بیمه گذاران، در تمام رشته های بیمه ای است. یکی از راه های شناسایی تقلب در خسارت های اعلام شده، استفاده از اطلاعات تقلب های کشف شده در گذشته است. امروزه روش های داده کاوی به طور گسترده در کشف الگوها در داده ها استفاده می شوند. استفاده از این روش ها می تواند در شناسایی خسارت های تقلبی در صنعت بیمه مفید باشد. در این مقاله ضمن بررسی روش های رایج برای شناسایی تقلب در بیمه اتومبیل از سه روش داده کاوی رگرسیون لجستیک، بیز ساده و درخت تصمیم برای پیداکردن الگوهایی استفاده شده است که به شرکت های بیمه در شناسایی تقلب ها در بیمه اتومبیل کمک می کنند. همچنین در یک مطالعه تجربی این روش ها بر روی داده های واقعی (شامل اطلاعات 72 پرونده خسارت بیمه نامه های شخص ثالث و بدنه اتومبیل) آزمایش و کارایی هر روش سنجیده شد. روش بیز ساده با دقت 28/90 درصد در شناسایی صحیح جعلی یا غیرجعلی بودن پرونده های خسارت بهترین کارایی را در مقایسه با دو روش درخت تصمیم با دقت 9/88 درصد و رگرسیون لجستیک با دقت 1/86 درصد داشت.
خلاصه ماشینی:
"در این مقاله ضمن بررسی روشهای رایج برای شناسایی تقلب در بیمۀ اتومبیل از سه روش دادهکاوی رگرسیون لجستیک،بیز ساده و درخت تصمیم برای پیدا کردن الگوهایی استفاده شده است که به شرکتهای بیمه در شناسایی تقلبها در بیمه اتومبیل کمک میکنند.
در ادامه سه روش رگرسیون لجستیک،بیز ساده و درخت تصمیم که از ابزارهای رایج در دادهکاوی هستند معرفی و با استفاده از این روشها مدلهایی برای شناسایی و دستهبندی خسارتهای تقلبی برروی دادههای واقعی برازش داده خواهد شد.
متغیرهای مورد استفاده در مدل در هریک از سه مدلی که در این بخش برای شناسایی تقلب معرفی خواهند شد، جعلی یا غیر جعلی بودن یک پرونده،به عنوان متغیر وابسته در نظر گرفته میشود.
از آنجایی که شرکتهای بیمه در پرداخت خسارتهای با مبالغ بالا حساسیت بیشتری داشته و بررسی بیشتری نسبت به علل وقوع حادثه انجام میدهند،این گونه به نظر میرسد که با افزایش مبلغ خسارت،احتمال تقلب کاهش مییابد،بنابراین مبلغ خسارت به عنوان ششمین متغیر مستقل در نظر گرفته شده است.
با توجه به اینکه در این تحقیق متغیر وابسته(وضعیت پروندۀ خسارت)یک متغیر دو سطحی است،از رگرسیون لجستیک برای تشخیص جعلی یا غیر جعلی بودن پروندههای خسارت استفاده شده است.
شاخصهای معنیداری مدل (به تصویر صفحه مراجعه شود) با توجه به مقادیر p- مقدار ضرایب مدل در گام سوم(پیوست 1)،مدل رگرسیون لجستیک به شکل زیر خواهد بود: 6?X548/6+5?X626/4+3?X65/1+238/6--)Y(tigoL که در آن Y متغیر وضعیت پروندۀ خسارت است."