آخر ما كتب

الـBig Data.. عالم البيانات الضخمه- طريقة عملها ولمحه عن تِقَنية الـHadoob


البيانات الضخمة, هل تبدو لك كلمة مألوفة؟ ربما لكن ما هي البيانات الضخمة؟ هو مصطلح يستخدم لوصف كمية ضخمة من البيانات غير المهيكلة وشبه منظمة.


هذا المقال قديم، أقدم من عمر المدونّه، ربما يحتوي أخطاءاً تقنية او نصية.. أرجو المعذرة على أي أخطاء.
البيانات الضخمة بشيء من التفصيل هي عبارة عن مجموعة من البيانات الضخمة جداً والمعقدة لدرجة أنه يُصبح من الصعب معالجتها باستخدام أداة واحدة فقط من أدوات إدارة قواعد البيانات أو باستخدام تطبيقات معالجة البيانات التقليدية. حيث تشمل التحديات الالتقاط، المدة، التخزين والبحث، المشاركة، والنقل والتحليل والتصور البيانات الضخمة عادة ما تتضمن مجموعات بيانات ذات أحجام تتخطي قدرة البرامج التي يشيع استخدامها لالتقاط وإدارة ومعالجة البيانات في غضون فترة زمنية مقبولة اكرر مقبولة غالبا ما يستخدم هذا المصطلح عند الحديث عن بيتابايتات وإكسابايتات (*) من البيانات, الموضوع سيكون اصعب صحيح؟
(البيانات الغير مهيكلة تمثل 80 % من البيانات في العالم)


قد يظن بعضكم انا الأمر تافه وغير مهم او لا يعنينا اقول له وبصدق لا, فهذا الامر يتدخل في حياتنا اليومية بشكل واضح وصريح, هل تسأل كيف؟ حسناً, سنضرب لكم مثل بسيط, عندما تتوجه لشركه المحمول التي تتعامل معها لكي تتدفع الفاتورة تذهب للموظف وتخبره برقم هاتفك ويقولك لك كم عليك من المال تعطيه المال وتأخذ الفاتورة وترحل في سبيلك,  أتظن ان الامر إنتهي؟ لا! فأنا لم اذكر اهم جزء و المُرتبط بمجالنا, تخيل معي ان عدد المُشتركين في هذه الشركه 50 مليون مشترك وانت من بينهم مُسجله بياناتك في قاعدة بيانات الشركه التي تحتوي علي 50 مليون غيرك وكل عميل مُسجله بياناتهم وعناوينهم و قيمه الفاتوره والسجل والأرشيف وارقام البطاقات, فكر معي كم من عمليات تصادم في معالجة الامور قد تحدث في الثانية فكر في حجم قاعدة البيانات فكر في معدل الخطأ!

تخيل ان العالم ليس لديه التكنولوجيا اللازمة لحل هذا الامر حينها سيكون هناك حلان اما الا تقبل الشركة اي عملاء جدد او ان ينهار النظام لذلك تسعي الشركات لحل هذه المشكلة بكثير من الاقترحات والمؤتمرات وتسعي ايضا للعمالة الماهرة في تحليل الادارة وتشير التقديرات الأخيرة الصادرة عن المكتب الامريكي لاحصاءات العمل على زيادة بنسبة 22٪ في الطلب على المهنيين من ذوي المهارات تحليل الإدارة بين الآن وعام 2020 ، وهذا هو أسرع من المتوسط ​​بالنسبة لجميع المهن . و الطلب على خدمات هؤلاء العمال تنمو مع استمرار المنظمات إلى البحث عن سبل لتحسين الكفاءة ومراقبة التكاليف


هل تقنيه Hadoob هي الحل؟



لنتعرف به ببساطة, الـHadoob هو إطار عمل برمجي مفتوح المصدر والذي يدعم التطبيقات الموزعة للبيانات الكثيفة، ومرخص وفقاً لرخصة (Apache Hadoop) كما أنه يدعم تشغيل التطبيقات على مجموعات كبيرة من الأجهزة السلعية (Apache v2) (GFS) الخاصة بجوجل وأبحاث نظام ملفات جوجل (MapReduce) من معمارية (Hadob)

طريقة عمله:

تستخدم طريقة هادوب في التخزين نظام ملفات موزع يقوم بكشف البيانات أينما كانت في كتلة خوادم هادوب. كما أن أدوات معالجة تلك البيانات موزعة أيضاً، وتقع غالباً على نفس الخوادم التي تضم البيانات، هذا ما يفيد في جعل معالجة البيانات أسرع.لكن علينا ان نتذكر ان الهدوب نجح مع 100 بيتابايت لكن ماذا لو تضاعف الامر واصبح 1 اكسابايت (*)

هل سينجح ام سيفشل؟ وهذا ما سوف توضحه الايام و يعتبر هادوب الفتي المدلل تقريباً لكل الشركات البيانات الكبيرة, واريدك ان تعلم ان للهادوب اخوه لكنه افضلهم

اشهر مستخدمي الهادوب
:

Amazon, Akamai, Apple, AVG, eBay, Electronic Arts, Facebook, Google
IBM, ImageShack, LinkedIn, Microsoft, The New York Times, Twitter, Yahoo


الحكومة الامريكية والبيانات الضخمة:
في عام
2012، أعلنت إدارة أوباما عن مبادرة التنمية وبحوث البيانات الضخمة والتي تناولت كيفية استخدام البيانات الضخمة لمعالجة المشاكل الهامة التي تواجه الحكومة وقد تألفت المبادرة من برنامج مختلف للبيانات الضخمة موزعة علي 6 دوائر والجدير بالذكر، أن تحليل البيانات الضخمة قد لعب دوراً كبيراً في حملة إعادة انتخاب باراك أوباما الناجحة عام 2012 وتمتلك الحكومة الاتحادية للولايات المتحدة 6 من أصل 10 أجهزة كمبيوتر تُعد هي الأكثر نفوذا في العالم والتي يُطلق عليها SuperComputers "الحواسيب الخارقه" وتقوم وكالة الأمن الوطني الأمريكي حالياً ببناء مركز بيانات يوتاه " Utah Data Center"، والذي سيكون قادر علي التعامل مع معلومات تقدر مساحاتها بـ يوتابايت (*) والتي جمعتها وكالة الأمن القومي عبر الإنترنت.

بعض الإحصائات المُذهله:
 -البشرية ارسلت اكثر من 144.8 مليار رسالة بريد الكتروني
-تُقدر عمليات البحث علي جوجِل في الدقيقه بـ 2 مليون عمليه
-تكتب علي
Twitter في اليوم 340 مليون تغريده
-طول الفيديوهات التي ترفع في الساعه الواحده علي
Youtube هو 72 ساعه
-يُعالج
Amazon ملايين العمليات كل يوم وكذلك إستفسارات أكثر من نصف مليون بائِع و في عام 2005 إمتلك أكبر ثلاث قواعد بيانات في العالم
-تُرفع 3600 صوره جديده في الدقيقه علي
Instagram
-تُرقع 3125 صوره جديده في الدقيقه علي Flickr
-تُقدر عمليات تحميل التطبيقات من Apple بـ47000 عمليه في الدقيقه
-مساحة الـ
Facebook تزيد عن 100 بيتا بايت و تُعالج أكثر من 50 مليار صوره ويحمي فيسبوك بطاقات إئتمان أكثر من مليار عضو
-يُرشد الـ
GPS أكثر من 100 مليون سائِق يومياً ويسجل تحركاتهم
في عام 2012 تم إنشاء 2.5 كونتيليون بايت من البيانات (من 1 لـ18 صفر)
(*)
وحدات قياس البيانات
 Bytes = 8 bit, Kilobyte = 1,024 Bytes, Megabyte = 1,024 Kilobyte
Gigabit = 1,024 Megabyte, Terrabyte = 1,024 Gigabit
Pettabyte = 1,024 Terrabyte, Exabyte = 1,024 Pettabyte
Zettabyte = 1,024 Exabyte, Yottabyte =1,024 Zettabyte