الخميس، 8 فبراير 2018

ايه الفرق بين ال Big Data و ال Data Science و ال Data Analysis

مساء الخير
ازيكم

زي ما وعدتكم المرة اللي فاتت ان شاء الله المرة دي حنتكلم عن الفروق بين مجالات مسمياتها قريبة قوي من بعض و اللي هي
Big Data
Data Analysis
Data Science
و حنحاول ندي نبذة عن كل واحد فيهم و ايه المهارات المختلفة اللي محتاج تعرفها علشان تبتدي في المجال ده.

ايه هو ال Big Data؟
يمكن في الفترة الأخيرة مصطلح ال Big Data كان عليه دوشة كثير بالذات لما عمرو أديب قال تعريف عجيب ليه أظهره كأنه حاجة شريرة أو سيئة, و طبعاً التعريف ده للأسف ما كانش ليه أي علاقة بالواقع.
ال Big Data في النهاية هو مجال هندسي من مجالات هندسة البرمجيات, بيهدف في الأساس لبناء أنظمة تقدر تتعامل مع حجم البيانات الهائل, و لو أخدت بالك احنا هنا ما قلناش نوع التعامل ده ايه, احنا هنا بنتكلم في أساس أي تعامل مع البيانات و اللي بيبتدي عادة بالتخزين, و الأرشفة و البحث و القدرة على انك تعمل عمليات عليها. يعني علشان نقرب المفهوم, قاعدة البيانات اللي احنا كلنا متعودين عليها زي mySQL, PostgreSQL, SQL Server في النهاية بتخزن, و تفهرس و تتيح وسائل للتعامل مع البيانات نفسها, و ده نفس اللي بتعمله ال Big Data Systems برضه, لكن الفرق الأهم هو ان حجم البيانات ضخم جداً, و بالتالي البيانات دي مش متخزنة على سيرفر واحد مثلاً, بل ممكن تبقى عشرات بل مئات الآلاف من السيرفرات اللي كلها بتساهم في بناء نظام ال Big Data بتاعك.
من أشهر أنظمة ال Big Data و اللي يمكن أغلب الناس اللي في المجال ده بتستخدمه, هو مجموعة تقنيات Apache Hadoop و زي ما أكيد أخدت بالك اني قلت مجموعة تقنيات, و ده لأنه Hadoop ده تقدر تقول كده انه مظلة لمجموعة كبيرة جداً من التقنيات اللي كل حاجة فيها بتعمل وظيفة معينة و بتساعدك في سيناريوهات معينة.
يعني مثلاً, أول حاجة غالباً حتحتاجها في التعامل مع أي بيانات, هو انك تخزنها و تنظمها في حاجة زي ال File System اللي على جهازك, و هنا بيجي دور أول تقنية و هي HDFS  و ده اسم ال File System بتاع Hadoop و اللي يعتبر القاعدة الأساسية اللي بتني عليها كل التقنيات التانية, و ده اللي بيسمح بتخزين البيانات و الحفاظ عليها عن طريق ال Redundancy و يديلك abstraction بحيث ما تحتاجش تعرف تفاصيل كثير عن ازاي البيانات و فين البيانات متخزنة او على أي أجهزة
بعد ما خزنت البيانات, حتحتاج طريقة تقدر تكتب بيها برامج تشتغل على البيانات دي, و اللي هو بنسميه Programming Model, و ال Programming Model اللي بتستخدمه في ال Big Data يمكن اشهرهم على الاطلاق هو MapReduce و ده اللي بيخليك تقدر تكتب برامج, طبعاً ده موضوع كبير لوحده. طبعأً Hadoop فيه مكونات أساسية أكثر من كده بكثير, زي ZooKeeper و Yarn و فوق ده كله فيه تطبيقات مشهورة زي Hive و اللي بتخليك تقدر تعامل البيانات اللي على Hadoop كأنها قاعدة بيانات و تكلمها بلغة شبه ال SQL جداً اسمها HQL, و حاجات تانية زي Hbase و غيرها كثير جداً من التقنيات اللي لا يسع المجال دلوقتي اننا نتكلم فيها.
الفكرة لو بصيت على ده كله, حتكتشف انها في النهاية كلها ادوات و تقنيات للتعامل مع البيانات, لكن نوعية التعامل ده ايه مش مشكلة ال Big Data

نيجي لل Data Analysis و ال Data Science

علشان نفهم الاتنين, محتاجين الأول نوصل الفكرة ان ال Data Science هو مجال بيختص بكل ماله علاقة بالبيانات, سواء بيانات Structured أو لأ, سواء محتاجة شوية تجهيز الأول, الهدف الأساسي لل Data Scientist هو انه يبحث في البيانات عن الدرر, زي الأنماط اللي بتتكرر و اللي على أساسها ممكن نتوقع حاجة تحصل في المستقبل, و ده غالباً بيكون عن طريق تطوير Models و ال Models دي ممكن تكون مبنية على حاجات زي Mathematical models, Statistical models, Machine learning, deep learning كل دي طرق مختلفة لبناء ال models اللي حتساعده انه من خلال البيانات اللي معاه دلوقتي يقدر يتوقع حاجات تحصل في المستقبل.
ال Data Scientist عمومأً بيبقى خلفيته رياضية أو احصائية مع ال Computer Science, و ده طبعاً بيخليهم نادرين و الطلب عليهم كثير لأن الخلطة دي من المهارات مش سهلة قوي.
و فيه مثل مشهور

Data Scientist: A person who is better at Statistics than any Software Engineer, and better at Software Engineering than any Statistician

و أغلب الصناعات و المجالات اللي بتتعامل مع بيانات كثير بتحتاج ناس تقدر تطلعلهم النوع ده من ال insights من البيانات, زي المؤسسات المالية, و شركات السوشيال ميديا, و التسويق و المبيعات و غيرها من المجالات.

ال Data Analyst
 هو شخص بيتعامل مع البيانات بشكل يومي و غالباً من خلال ادوات جاهزة, زي Tableu أو حتى Excel, الفكرة انه أغلب الوقت بيكون هدفه هو الوضع الحالي أكثر من ايه اللي حيحصل في المستقبل, يعني أسئلة زي احنا عملنا مبيعات النهاردة بكام, أو عندنا كام عميل جديد, أو السنة دي مقارنة بالسنة اللي فاتت عملنا فلوس قد ايه, كلها بيانات و أسئلة مهمة, لكن أغلبها بتكون اسئلة اجابتها موجودة في البيانات أو محتاجة عمليات احصائية بسيطة, مش بالضرورة يكون عنده خلفية برمجية, و ان كان من المتوقع انه يكون عنده القدرة على التعامل مع قواعد بيانات أو البرامج الخاصة بده, مع خلفية احصائية.
يعني لو حبينا نقول أكبر فرق بين ال Data Scientist و ال Data Analyst هو ان ال Data Scientist مشغول باستقراء المستقبل و ال Data Analyst مشغول بتقييم الواقع و الماضي.

ده كان موضوعنا الأسبوع ده, مستنيين مقترحاتكم و اسئلتكم, و ان شاء الله نرجعلكم بموضوع جديد قريب.

شكراً و ما تنساش تعمل Like و Subscribe و تفعل الجرس علشان يجيلك Notifications أول ما ينزل فيديو جديد.

سلام

ليست هناك تعليقات:

إرسال تعليق