التعادل يحسم مواجهة مصر والكويت في كأس العرب    أخضر 23 يبدأ تمارينه في الدمام ويغادر إلى الدوحة استعداداً لكأس الخليج    أبها المدينة الصحية استعدادات وآمال    كفاح من أجل الحلم    حين أوقدت منارتي نهض الصمت فنهضت به    برئاسة ولي العهد.. مجلس الوزراء يقرّ ميزانية 2026    ولي العهد يتلقى رسالة خطية من أمير دولة قطر    جدة تستضيف الجولة الختامية من بطولة السعودية "تويوتا للباها 2025"    فيصل بن مشعل يرعى توقيع مذكرة تعاون بين إسلامية القصيم وجمعية التنمية الأسرية    بوتين: الهجمات على ناقلات النفط قرب تركيا «قرصنة»    مساعد وزير الإعلام يبحث مع سفير موريتانيا التعاون بالإذاعة والتلفزيون    أمير الرياض يؤدي صلاة الميت على عبدالله بن فهد بن مساعد بن جلوي    احتفال نور الرياض يقدّم أول تجربة ضوئية في محطات القطار    خبراء: رفع الإنفاق البحثي نحو الصناعة رافعة محورية لتعزيز الأمن الغذائي    أمير تبوك يطلع على تقرير عن منجزات وأعمال لجنة تراحم بالمنطقة    إصابة جديدة لنونيز مع الهلال    أمير الشرقية يستقبل الدوسري المتنازل عن قاتل أخيه    رجل الدولة والعلم والخلق الدكتور محمد العقلاء    انطلاق معسكر العمل الكشفي التقني البيئي المركزي 2025م بمنطقة الرياض    فضيلة المستشار الشرعي بجازان يلقي كلمة توجيهية لمنسوبي القوة البحرية بجازان    مركز الفلك الدولي يوثق بقع شمسية أكبر من الأرض بعشر مرات    أكاديمية الأمير سلطان تنظم حملة تبرع بالدم    "الشؤون الإسلامية" تنفذ أكثر من 47 ألف جولة رقابية في المدينة المنورة    طرح 21 مشروعا عبر منصة استطلاع لأخذ مرئيات العموم والقطاعين الحكومي والخاص    انطلاقة مشروع "رَواحِل" بجمعية التنمية الأهلية بأبها    المركز الوطني للعمليات الأمنية يتلقى (2.720.218) اتصالًا عبر رقم الطوارئ الموحد (911)    انطلاق أعمال المؤتمر الدولي للتأهب والاستجابة للطوارئ النووية والإشعاعية في الرياض    اعتداء جديد للمستعمرين يعطل مصادر المياه في «رام الله»    قوات الاحتلال تحتجز فتاة وتعتقل طفلًا    تصنيف صندوق الاستثمارات العامة عند (A-1)    مجلس الوزراء يعقد جلسة مخصصة للميزانية اليوم    وزير الطاقة يطلق منتدى الاستثمار المشترك.. السعودية وروسيا.. مرحلة جديدة من التعاون الشامل    طالب جامعة شقراء بتعزيز جهودها في التحول.. «الشورى» يوافق على تعديل مشروع نظام حقوق المؤلف    النحاس يسجل سعرًا تاريخيًّا وسط مخاوف من أزمة إمدادات عالمية    أعادت إشعال الضفة باقتحامات واسعة.. إسرائيل تناقض الهدنة وتكثف القصف على غزة    نحو مجتمع أكثر صحة وحيوية    هنيدي خارج السباق الرمضاني    التعالي الصامت    «مركز الموسيقى» يحتفي بإرث فنان العرب    «البحر الأحمر السينمائي» يكشف عن برنامجه الشامل    في قمة الجولة 15 من الليغا.. برشلونة يواجه أتلتيكو مدريد لتأكيد الصدارة    سمو أمير قطر يفتتح كأس العرب    علماء الآثار الروس يكتشفون آثارًا فنلندية وقطعًا معدنية عربية في منطقة إيفانوفو    «التخصصي» ينقذ طرف مريض بالجراحة «ثلاثية الأبعاد»    البكتيريا المقاومة للعلاج (2)    الكتابة توثق عقد الزواج عند عجز الولي عن النطق    البروفيسورة حياة سندي تنضم لجائزة Galien    محافظ الطائف يلتقي رئيس مجلس إدارة جمعية أسر التوحد    عد الأغنام لا يسرع النوم    لوجكستا لعلاج الكوليسترول الوراثي للأطفال    اختراق أمني يستهدف ChatGPT    وفاة أول معمرة في روسيا    تقنية تعيد تمييز الروائح للمصابين    دورة علمية للدعاة والأئمة والخطباء بجزيرة لومبوك الإندونيسية    القيادة تعزي الرئيس الإندونيسي في ضحايا الفيضانات والانزلاقات الأرضية ببلاده    الداخلية: تخريج 99 ضابطاً من دورات متقدمة وتأسيسية    أمير منطقة جازان ونائبه يطمئنان على صحة مدير عام التعليم ملهي عقدي    بحضور محافظ جدة .. القنصلية العمانية تحتفل باليوم الوطني لبلادها    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.