سعود بن نايف يدشّن محطتي الوسيع والحيراء لتحلية المياه ومنصة «خير الشرقية»    بوتين: روسيا ستنتصر في أوكرانيا    القادسية يعمق جراح الشباب بثلاثية مثيرة    القبض على يمني في جدة لترويجه الحشيش وأقراصا خاضعة لتنظيم التداول الطبي    الاتحاد يتغلب على نيوم بثلاثية في دوري روشن للمحترفين    إجماع دولي على خفض التصعيد ودعم الحكومة اليمنية    التدريب التقني يطلق ورشة عن بعد لتعزيز العمل التطوعي    الدفاع المدني يحذر من الفحم والحطب    أول عملية لاستبدال مفصل الركبة باستخدام تقنية الروبوت    محمية الملك عبدالعزيز الملكية ترصد "نسر روبّل" المهدد بالانقراض    وزير الخارجية ونظيره الصومالي يبحثان المستجدات بالمنطقة    نائب أمير تبوك يستقبل رئيس وأعضاء مجلس إدارة جمعية طفلي الطبية بالمنطقة    ارتفاع حصيلة العدوان الإسرائيلي على غزة إلى 71 ألفًا و269 شهيدًا    رئيس تايوان: مناورات الصين تهدد الاستقرار الإقليمي    جمعية التنمية الأهلية بأبها تختتم مشروع "ضع بصمتك" لتنمية مهارات التطوع وبناء المبادرات المجتمعية.    الدكتور صالح بن سليمان الخَضَر في ذمة الله    محافظ الطائف يشيد بمنجزات مهرجان الديودراما المسرحي    تعزيز الدور التنموي للأوقاف    المملكة ترسّي أكبر منافسة تعدينية في تاريخها    من السرد إلى السؤال… «هروب من لجوج» في قراءة ثقافية مفتوحة    أمانة حائل تغلق 11 لاونجا مخالفا بمدينة حائل    سبعة معارض فنية تعيد قراءة الحرفة بمشاركة أكثر من 100 فنانًا وفنانة    وزير الخارجية يبحث مع نظيره العٌماني تطورات المنطقة    تعليم الطائف يطلق تجربة الأداء لمنصة الدعم الموحد لرفع كفاءة المدارس    20 عيادة تمريضية متخصصة يطلقها تجمع جازان الصحي    أمير القصيم يُدشّن عمليات الروبوت الجراحي لأول مرة بمستشفى الملك فهد التخصصي    سوق الأسهم السعودي ينهي آخر جلسات 2025 مرتفعا 109 نقاط    سيرة من ذاكرة جازان.. الشاعر علي محمد صيقل    صادرات الخدمات تسجل 58.2 مليار ريال سعودي في الربع الثالث من 2025م    جامعة الإمام محمد بن سعود الإسلامية توقّع عقود اعتماد برامجي مع تقويم التعليم والتدريب    تكليف عايض بن عرار أبو الراس وكيلاً لشيخ شمل السادة الخلاوية بمنطقة جازان    مشاريع ومبادرات تنموية سعودية تغذي شريان التنمية في قلب اليمن    انخفاض أسعار النفط    استعراض أهداف "محبة للتنمية الأسرية" أمام سعود بن بندر    فيصل بن بندر يطلع على جهود "ترجمة".. ويعزي مدير الأمن العام    مجلس الوزراء: التصعيد في اليمن لا ينسجم مع وعود الإمارات    تغلب عليه بهدف وحيد.. ضمك يعمق جراح الأخدود    رغم استمرار الخلافات حول خطوات اتفاق غزة.. تل أبيب لا تمانع من الانتقال ل«المرحلة الثانية»    قلق أممي على المحتجزين والجرحى بالفاشر    مندوب الصومال في مجلس الأمن يحذر: اعتراف إسرائيل ب«أرض الصومال» يزعزع القرن الأفريقي    مشيداً بدعم القيادة للمستهدفات الوطنية..الراجحي: 8 مليارات ريال تمويلات بنك التنمية الاجتماعية    مشاركة 25 فناناً في ملتقى طويق للنحت    رياض الخولي بوجهين في رمضان    التوازن والغياب!    تعديل ضريبة المشروبات المحلاة    فلما اشتد ساعده رماني    ضوابط لتملك الأسهم العقارية    «وطن 95».. تعزيز جاهزية القطاعات الأمنية    "السنغال والكونغو الديمقراطية وبنين" إلى ثمن نهائي أمم أفريقيا    باحثون يطورون نموذجاً للتنبؤ بشيخوخة الأعضاء    مسحوق ثوري يوقف النزيف الحاد في ثانية    الميزة الفنية للاتحاد    خسارة ثقيلة للأهلي أمام المقاولون العرب في كأس رابطة المحترفين المصرية    خادم الحرمين الشريفين وسمو ولي العهد يعزيان أسرة الخريصي    حين يغيب الانتماء.. يسقط كل شيء    جيل الطيبين    رجل الأمن ريان عسيري يروي كواليس الموقف الإنساني في المسجد الحرام    ولادة مها عربي جديد بمتنزه القصيم الوطني    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.