چکیده:
در سالهای اخیر، شاهد افزایش چشمگیر تولید داده بودهایم. به گفته IBM تقریبا، 90 % کل دادههای ذخیرهشده موجود در دنیا، در دو سال اخیر تولید شدهاند و برای اولین بار در تاریخ، در سال 2007 میلادی بود که حجم دادههای تولیدی فراتر از فضای موجود برای ذخیرهسازی آنها رفت. همچنین، طیف گستردهای از برنامههای کاربردی مانند موتورهای جستجو، تحقیقات پزشکی، پیشبینی آبوهوا و برنامههای علمی برای پردازش و تجزیهوتحلیل مقادیر دادهای بزرگ نیازمند محیطهای توزیعشده هستند. دادههای عظیم همانند سایر فنآوریها، فرصتها و چالشهای متعددی را پیشروی استفادهکنندگان قرار داده است، استفاده از فرصتها و مزایای آن در کسبوکار و مدیریت صحیح چالشها به یکی از موضوعات داغ در عرصه فنآوری اطلاعات تبدیل شده است. بنابراین، وجود راهحلی برای پردازش اطلاعات عظیم با هزینهای مقرون بهصرفه بسیار اهمیت دارد، لذا یکی از بهترین راهحلها برای رفع مشکل پردازش اطلاعات عظیم استفاده از چارچوب آپاچی هدوپ است. تعریف گارتنر از هدوپ این است که «هدوپ یک چارچوب مدیریت داده است که حجم زیادی از دادههای دارای ساختار و بدون ساختار را که تقریبا در تمامی لایههای سازمانی اثر میگذارد، در کنار هم میآورد که موجب قرارگیری آن در بطن مراکز داده میشود». هدوپ بخشی از پروژه آپاچی است که بنیاد نرمافزار آپاچی آن را حمایت میکند. در واقع، هدوپ یک چارچوب برنامهنویسی رایگان و مبتنی بر جاوا است که ما را در پردازش مجموعههای عظیمی از دادهها در یک محیط پردازش توزیعی پشتیبانی میکند. لذا در این مقاله قصد داریم مقایسهای بین پایگاه دادههای ساختیافته و نیافته داشته باشیم و سپس به بررسی معماری آپاچی هدوپ و کاربردهای وسیع آن در دادههای عظیم امروزی و همچنین چالشهای پیشروی این فناوری نوپا مثل پردازش دستهای، گلوگاه و پردازشهای بلادرنگ بپردازیم.
خلاصه ماشینی:
دادههای عظیم همانند سایر فنآوریها، فرصتها و چالشهای متعددی را پیشروی استفادهکنندگان قرار داده است، استفاده از فرصتها و مزایای آن در کسبوکار و مدیریت صحیح چالشها به یکی از موضوعات داغ در عرصه فنآوری اطلاعات تبدیل شده است.
بنابراین، وجود راهحلی برای پردازش اطلاعات عظیم با هزینهای مقرون بهصرفه بسیار اهمیت دارد، لذا یکی از بهترین راهحلها برای رفع مشکل پردازش اطلاعات عظیم استفاده از چارچوب آپاچی هدوپ است.
در آوریل 2009 میلادی، یاهو اعلام کرد با استفاده از هدوپ توانسته است 1 ترابایت داده را ظرف 62 ثانیه پردازش کند.
دانشمندان هواشناسی برای پیشبینی آبوهوا نیاز دارند تا دادههای جمعآوریشده که مقدار آن بسیار زیاد است را بهصورت کاملا نامرتب جمعآوری کنند، سپس، بعد از مراحل مرتبسازی و تمیزکردن دادهها آنها را ذخیره و استفاده کنند.
بنابراین، میتوان با دراختیارداشتن اطلاعات بیشتری از مشتریان نرخ ریزش مشتری را تا حدود قابل توجهی کاهش داد، یا مثلا کاربرد هدوپ در سیستم توصیفگر Netflix است که با دراختیارداشتن حجم زیادی از دادههای مشتریان، یک سری شباهت بین مشتریان مختلف پیدا میکند و براساس رفتار برخی مشتریان، رفتار برخی دیگر را پیشبینی میکنند و به آنها پیشنهادهایی در زمینه جستجوی کاربر داده میشود.
5-2- هدوپ و چالش پردازش بلوکهای داده کوچک طرز کار معماری هدوپ در شکل (3) قابل مشاهده است که نحوه عملکرد آن به این صورت است که برای ذخیرهسازی دادههای عظیم، ابتدا دادهها را تکهتکه کرده و تکهها را در سرورهای مختلف ذخیره میکند.