انطلاق أكبر هاكاثون في العالم "أبشر طويق" بالشراكة بين وزارة الداخلية وأكاديمية طويق    نائب وزير البيئة يترأس الاجتماع التشاوري لوزراء البيئة العرب ويعقد لقاءات ثنائية    بلجيكا: الأصول الروسية المجمدة ستستخدم لتمويل قرض لأوكرانيا    كأس العرب .. المغرب يكسب سوريا ويتأهل إلى نصف النهائي    بيلينجهام يثق في قدرة ألونسو وريال مدريد على التعافي رغم الضغوط    50 اتفاقية .. وتمكين رقمي شامل يفتح آفاقاً جديدة للقطاع غير الربحي البيئي    إحباط تهريب (132,000) قرص خاضع لتنظيم التداول الطبي في عسير    خوجة يستعرض تاريخ الصحافة السعودية ومستقبلها الرقمي    كتاب جدة يستهل ندواته الحوارية بالفلسفة للجميع    وفاة طفلة رضيعة في غزة بسبب البرد الشديد    ناصر القصبي يؤكد في الحفل الختامي أهمية تعزيز الحراك المسرحي السعودي    نائب أمير جازان يستقبل الدكتور الملا    خفض الفائدة يعيد تشكيل المشهد ويعزز السيولة في السوق السعودي    يوم الجبال الدولي مشاركة واسعة لإبراز جمال تضاريس السعودية    القيادة تهنئ رئيس بوركينا فاسو بذكرى يوم الجمهورية لبلاده    نائب أمير المنطقة الشرقية يستقبل رئيس وأعضاء مجلس إدارة جمعية سقياهم    توقيع اتفاقية التعاون الإستراتيجي لدعم التعليم في اليمن بقيمة 40 مليون دولار    روضة إكرام تختتم دورتها النسائية المتخصصة بالأحكام الشرعية لإجراءات الجنائز    45 ركنًا تستعرض خيرات حفر الباطن في مهرجان المنتجات الزراعية    رئيس الخلود: صلاح غير مناسب لدوري روشن    برعاية محافظ صبيا المكلف"برّ العالية" تُدشّن مشروع قوارب الصيد لتمكين الأسر المنتجة    تعلموا التاريخ وعلموه    ريما مسمار: المخرجات السعوديات مبدعات    طرق ذكية لاستخدام ChatGPT    فعاليات ترفيهية لذوي الإعاقة بمزرعة غيم    ممدوح بن طلال.. إرثٌ لا يرحل    ارتفاع مبيعات الإسمنت مع تزايد حركة البناء الواسعة    رينارد: اعتدنا على المواجهات الثقيلة    «الثقافة» تختم الفعاليات الثقافية السعودية في البندقية    على هامش شتاء مرات السادس.. معرض منوع لفناني منطقة الرياض    رصد أكثر من عشرة آلاف طائر في محمية فرسان    أمير المدينة المنورة يستقبل تنفيذي حقوق الإنسان في منظمة التعاون الإسلامي    استضعاف المرأة    مستشفى الملك فهد الجامعي يعزّز التأهيل السمعي للبالغين    «طبية الداخلية» تقيم ورشتي عمل حول الرعاية الصحية    تطعيم بلا بروتين بيض    في ذمة الله    غرفة إسكندراني تعج بالمحبين    القيادة تعزّي ملك المغرب في ضحايا انهيار مبنيين متجاورين في مدينة فاس    تشجيع تكافؤ الفرص والمساواة في المعاملة.. الموارد.. مبادرات تحقق العدالة وتعزز بيئة العمل    في سادس جولات اليورباليج.. مواجهة حاسمة بين سيلتيك غلاسكو وروما    في ختام مجموعات كأس الخليج تحت 23 عاماً.. الأخضر يواجه نظيره القطري للصدارة    الرئيس التنفيذي عمر مغربل: الدوري السعودي محط أنظار العالم    بيروت تؤكد سيادتها واستقلال قرارها الداخلي.. رفض لبناني رسمي لدعوة إيران    «مسألة حياة أو موت».. كوميديا رومانسية مختلفة    ضغوط أمريكية لتنفيذ المرحلة الثانية.. واشنطن تلزم تل أبيب بالتقدم في اتفاق غزة    وصول طائرة سعودية جديدة لإغاثة الفلسطينيين    «حساب المواطن»: 3 مليارات ريال لمستفيدي دفعة شهر ديسمبر    أمير الشرقية ونائبه يعزيان العتيبي في وفاة والده    زواج يوسف    الأرض على موعد مع شهب التوأميات    دراسة تكشف دور «الحب» في الحماية من السمنة    نائب أمير مكة: المملكة أولت خدمة المقدسات وقاصديها اهتمامًا خاصًا وجعلتها على هرم الأولوية    تصعيد جديد في اليمن يهدد استقرار الجنوب    استئصال البروستاتا بتقنية الهوليب لمريض سبعيني في الخبر دون شق جراحي    جمعية روضة إكرام تعقد دورتها النسائية حول الأحكام الشرعية لإجراءات الجنائز    طيور مائية    ولي العهد يفتتح مرافق قاعدة الملك سلمان الجوية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.