المملكة تستضيف "معرض التحول الصناعي 2025" في ديسمبر المقبل    البديوي : اقتحام وزير قوات الاحتلال وعددٌ من المستوطنين المتطرفين المسجد الأقصى انتهاكٌ صارخٌ للمقدسات الإسلامية    أمطار رعدية على عدد من مناطق المملكة    جمعية إحسان بجازان تكرم متطوعيها المتميزين في شهر رمضان    بلدية محافظة الشماسية تحتفل بعيد الفطر المبارك    هيئة الهلال الأحمر بالشرقية تكثف جهودها خلال عيد الفطر 1446ه    مصادرة العديد من الفواكة الغير صالحة للاستهلاك بمنطقة عسير    الدفاع المدني: استمرار هطول الأمطار الرعدية على معظم مناطق المملكة حتى الاثنين المقبل    المملكة تدعم أبطال ذوي التوحد    أكثر من 30 فعالية في (٨) مواقع تنثر الفرح على سكان تبوك وزوارها    بلدية محافظة الأسياح تحتفي بعيد الفطر وتنشر البهجة بين الأهالي    أخضر السيدات يدشن معسكر الدمام ويواجه سريلانكا وهونغ كونغ    "التجارة": نفاذ نظاميّ السجل التجاري والأسماء التجارية اعتباراً من اليوم    في افتتاح كأس آسيا بالطائف .. الأخضر السعودي تحت 17 عاماً يواجه الصين    احتفالات مركز نعام بعيد الفطر المبارك 1446ه    القادسية يتغلّب على الرائد ويتأهل لنهائي كأس الملك    قمر صناعي صيني لبث الإنترنت    عون: العالم العربي وعلى رأسه السعودية رئة لبنان اقتصادياً    الدولار يتراجع بنسبة 1% أمام اليورو إثر إعلان ترامب بشأن الرسوم الجمركية    العثور على «صقر الأسياح» في العراق    فرحة العيد    عيد الشعبة غير    ماذا عن هؤلاء يا لجنة الاستقطاب؟!    بلدية محافظة الشماسية تحتفل بعيد الفطر    بماذا أعددنا ل«يونيو»؟    هل هناك حاجة لزيادة عدد الفرق؟    مجمع الملك سلمان يُطلق برنامج «شهر اللغة العربية» في إسبانيا    تشهي التخطئة    المملكة توزّع 467 سلة غذائية في مدينة بيروت بلبنان    هيئة العقار تدرس وضع حد لرفع الإيجارات    جناح مكتبة الملك عبدالعزيز العامة في بولونيا يحظى بإشادة الزوار الإيطاليين والمبتعثين    الرياض تحتضن منتدى الاستثمار الرياضي 2025 الاثنين المقبل    السفير الرقابي يقيم حفل استقبال ويشارك رئيس الجمهورية بصلاة عيد الفطر المبارك    فاطمة الفهرية التي أسست أقدم جامعة في العالم؟    وزارة الصحة الأمريكية تبدأ عمليات تسريح موظفيها وسط مخاوف بشأن الصحة العامة    ترحيب سعودي باتفاق طاجيكستان وقرغيزستان وأوزبكستان    طيفُ التوحدِ همٌ أُمَمِي    نواف بن فيصل يُعزّي أسرة الدهمش في وفاة الحكم الدولي إبراهيم الدهمش    رجال أعمال صبيا يسطرون قصص نجاح ملهمة في خدمة المجتمع وتنمية الاقتصاد المحلي    مدرب الشباب ينتقد التحكيم عقب الخسارة أمام الاتحاد    العيد يعزز الصحة النفسية    8 دول في أوبك+ تجتمع الخميس وتوقعات ببدء خطة رفع الإنتاج    تجربة سعودية لدراسة صحة العيون في الفضاء    محافظ الطوال يؤدي صلاة عيد الفطر المبارك في جامع الوزارة ويستقبل المهنئين    باحثون روس يطورون طريقة لتشخيص التليف الكيسي من هواء الزفير    جوارديولا يُعلن مدة غياب هالاند    جمعية " كبار " الخيرية تعايد مرضى أنفاس الراحة    أكثر من 122 مليون قاصدٍ للحرمين الشريفين في شهر رمضان    الأمير سعود بن نهار يستقبل المهنئين بعيد الفطر    "أمانة الطائف" تنهي استعداداتها لعيد الفطر المبارك    جمع مهيب في صلاة عيد الفطر في مسجد قباء بالمدينة المنورة    إدارة المساجد والدعوة والإرشاد بمحافظة بيشة تُنهي استعداداتها .    مختص ل «الرياض»: 7% يعانون من اضطراب القلق الاجتماعي خلال الأعياد    ترامب: لا أمزح بشأن سعيي لفترة رئاسية ثالثة    وسائل إعلام: ترامب يعتزم زيارة السعودية في منتصف مايو    إنجاز إيماني فريد    عيد الدرب.. مبادرات للفرح وورود وزيارات للمرضىع    بين الجبال الشامخة.. أبطال الحد الجنوبي يعايدون المملكة    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.