چکیده:
دادهکاوی، شامل بهرهگیری از ابزارهای آنالیز دادههای پیچیده برای کشف الگوهای موجود و روابط ناشناخته میان دادهها در حجمی وسیع میباشد. این ابزارها شامل مدلهای آماری، الگوریتمهای ریاضی و متدهای یادگیری ماشین میباشد؛ الگوریتمهایی که بازدهی خود را به صورت خودکار از طریق تجربه افزایش میدهند، مانند شبکههای عصبی و درختهای تصمیمگیری. نتیجه دادهکاوی، علاوه بر جمعآوری و مدیریت دادهها، در برگیرنده آنالیز و پیشبینیهایی نیز میباشد. دادهکاوی میتواند روی دادههای ارائهشده در فرمهای عددی متنی و یا چند رسانهای اعمال شود. کشف پولشویی و فساد مالی و به دست آوردن نتایج راهبردی جهت تصمیمگیریهای آینده، از مهمترین کاربردهای آن به شمار می رود. در این مقاله ابتدا مفاهیم اصلی و اولیه دادهکاوی معرفی میشود و در ادامه، به نمونههایی از کاربرد آن اشاره مینماییم
خلاصه ماشینی:
مروري بر مفاهيم دادهكاوي راحله يوسفي 1 - امير غلامي 2 چكيده دادهكاوي، شامل بهرهگيري از ابزارهاي آناليز دادههاي پيچيده براي كشف الگوهاي موجود و روابط ناشناخته ميان دادهها در حجمي وسيع ميباشد.
حجم بالاي دادههاي دائماً در حال رشد در همه حوزهها و نيز تنوع آنها به شكل داده متني، اعداد، گرافيكها، نقشهها، عكسها، تصاوير ماهوارهاي و عكسهاي گرفتهشده با اشعه ايكس، نمايانگر پيچيدگي كار تبديل دادهها به اطلاعات است.
اصطلاح دادهكاوي را آمارشناسان، تحليلگران دادهها و انجمن سيستمهاي اطلاعات مديريت به كار بردهاند؛ در حالي كه پژوهشگران يادگيري ماشين و هوش مصنوعي، از KDD (اكتشاف علوم) بيشتر استفاده ميكنند.
اساساً رگرسيون يك مجموعه اطلاعات و داده را در اختيار گرفته و يك فرمول رياضي متناسب با آن دادهها ايجاد ميكند و زمانيكه شما بخواهيد از نتايج دادههايتان آينده را پيشبيني كنيد، كافي است دادههاي جديد خود را به فرمول توليد شده توسط رگرسيون داده و نتايج حاصل را كه همان پيشبينيهاي مورد نظر شما است، دريافت داريد.
دليل ديگر اينكه معمولاً دادهها اطلاعات زيادي در اختيار ما نميگذارند، اين روشها با اطلاعات كمتر بهتر ميتوانند كار كنند و همچنين اينكه براي دادههاي وسيع كاربرد دارند.
روشهاي آماري، بيشتر زماني كه تعداد دادهها كمتر است و اطلاعات بيشتري در مورد دادهها ميتوان به دست آورد، استفاده ميشوند؛ به عبارت ديگر، اين روشها با مجموعه دادههاي كوچكتر سر و كار دارند.
روشهاي آماري چون پايه رياضي دارند، نتايج دقيقتري نسبت به ديگر روشهاي Data mining ارائه ميدهند؛ ولي استفاده از روابط رياضي، نيازمند داشتن اطلاعات بيشتري در مورد دادهها است.