القيادة تعزي الرئيس الإيراني في ضحايا انفجار ميناء رجائي بمدينة بندر عباس    أمطار رعدية ورياح نشطة على عدة مناطق بالمملكة    حسين الشيخ نائبا للرئيس الفلسطيني    قلصت الكويت وقت الإقامة والصلاة في المساجد ؟ توفيرا للكهرباء    أمير نجران: ترسيخ مكانة المملكة بين الدول    رؤية السعودية 2030 في عامها التاسع.. إنجازات تفوق المستهدفات ومؤشرات توثق الريادة    381 ألف وظيفة في قطاع التقنية.. 495 مليار دولار حجم الاقتصاد الرقمي السعودي    أمير جازان: آفاق واسعة من التقدم والازدهار    أمة من الروبوتات    الأردن.. مصير نواب "العمل الإسلامي" معلق بالقضاء بعد حظر الإخوان    تفاهمات أمريكية سورية ومساعٍ كردية لتعزيز الشراكة الوطنية    ينتظر الفائز من السد وكاواساكي.. النصر يقسو على يوكوهاما ويتأهل لنصف النهائي    القيادة تهنئ رئيسة تنزانيا بذكرى يوم الاتحاد    أمير الشرقية: إنجازات نوعية لمستقبل تنموي واعد    خادم الحرمين: نعتز بما قدمه أبناء الوطن وما تحقق جعل المملكة نموذجاً عالمياً    الآبار اليدوية القديمة في الحدود الشمالية.. شواهد على عبقرية الإنسان وصموده في مواجهة الطبيعة    ضبط أكثر من 19.3 ألف مخالف لأنظمة الإقامة والعمل وأمن الحدود    "المنافذ الجمركية" تسجل 1314 حالة ضبط خلال أسبوع    المملكة تفتح أبواب جناحها في معرض أبوظبي الدولي للكتاب 2025    برعاية سمو وزير الثقافة.. هيئة الموسيقى تنظم حفل روائع الأوركسترا السعودية في سيدني    أمير عسير: نجاحات متتالية لمستهدفات طموحة    مدرب كاواساكي: قادرون على التأهل    قدامى الشباب ينتقدون نتائج توثيق البطولات    نقطة تحول فارقة في التنمية الوطنية    الجبير يترأس وفد المملكة في مراسم تشييع بابا الفاتيكان    ترامب يحض على عبور "مجاني" للسفن الأميركية في قناتي باناما والسويس    خطى ثابتة نحو مستقبل مُشرق    إطلاق مبادرة "حماية ومعالجة الشواطئ" في جدة    فخر واعتزاز بالوطن والقيادة    المملكة تقفز عالمياً من المرتبة 41 إلى 16 في المسؤولية الاجتماعية    اللواء عطية: المواطنة الواعية ركيزة الأمن الوطني    1500 متخصص من 30 دولة يبحثون تطورات طب طوارئ الأطفال    الأميرة عادلة بنت عبدالله: جائزة الشيخ محمد بن صالح بن سلطان عززت المنافسة بين المعاهد والبرامج    برشلونة يكسب "كلاسيكو الأرض" ويتوج بكأس ملك إسبانيا    تدشين الحملة الوطنيه للمشي في محافظة محايل والمراكز التابعه    رئيس مركز الغايل المكلف يدشن "امش30"    اكتشاف لأقدم نملة في التاريخ    الذهب ينخفض 2 % مع انحسار التوترات التجارية.. والأسهم تنتعش    قدراتنا البشرية في رؤية 2030    101.5 مليار ريال حجم سوق التقنية    تصاعد التوترات التجارية يهدد النمو والاستقرار المالي    الحكومة اليمنية تحذر موظفي ميناء رأس عيسى من الانخراط في عمليات تفريغ وقود غير قانونية بضغط من الحوثيين    800 إصابة بالحصبة بأمريكا    فواتير الدفع مضرة صحيا    الذكور الأكثر إقبالا على بالونة المعدة    الأهلي يكسب بوريرام بثلاثية ويواجه الهلال في نصف نهائي النخبة الآسيوية    القيادة تهنئ تنزانيا بذكرى يوم الاتحاد    السعودية تعزي إيران في ضحايا انفجار ميناء بمدينة بندر عباس    حين يعجز البصر ولا تعجز البصيرة!    32 مليون مكالمة ل 911    مكافحة المخدرات معركة وطنية شاملة    التحول الرقمي في القضاء السعودي عدالة تواكب المستقبل    قوانين الفيزياء حين تنطق بالحكمة    وزارة التعليم تستعرض منصاتها في معرض تونس الدولي للكتاب 2025    الرئيس العام لهيئة الأمر بالمعروف يلتقي مديري عموم الفروع    إمام الحرم النبوي: حفظ الحقوق واجب شرعي والإفلاس الحقيقي هو التعدي على الخلق وظلمهم    إمام المسجد الحرام: الإيمان والعبادة أساسا عمارة الأرض والتقدم الحقيقي للأمم    الشيخ صلاح البدير يؤم المصلين في جامع السلطان محمد تكروفان الأعظم بالمالديف    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.