«اليونسكو» تستشهد ب«سدايا» نموذجاً عالمياً في دمج البيانات والذكاء الاصطناعي    السعودية تتسلّم رئاسة الشبكة العالمية لسلطات إنفاذ قانون مكافحة الفساد    «أرسين فينغر» يطلع على استراتيجية المنتخبات والإدارة الفنية    ليث نائباً لرئيس الاتحاد العربي لكمال الأجسام    الكناني يدشّن مهرجان «نواتج التعلم» في متوسطة الأمير فيصل بن فهد بجدة    المملكة تتصدر وتحقق قفزات عالمية في مؤشر تطور الحكومة الإلكترونية    الصيد.. تجربة متكاملة    الذهب يواصل ارتفاعاته القياسية مع استمرار مخاوف زيادة الرسوم الجمركية    نيابة عن ولي العهد.. وزير الخارجية يترأس وفد المملكة في الافتتاح.. «قمة باريس» تناقش الاستفادة من الذكاء الاصطناعي لخدمة البشرية    "ليب 2025" في يومه الثالث... نقاشات موسعة حول الابتكار والاستدامة الرقمية    محمد بن ناصر يطلع على أداء الخطوط السعودية    «كاوست» تقدم قصص النجاح الملهمة للسعوديات    غزة.. تصعيد ومهل متبادلة تهدد استمرار الهدنة    توجيه رئاسي للحكومة اللبنانية الجديدة بالشفافية وتنفيذ الإصلاحات    المملكة تواصل جهودها الإنسانية عالميًا عبر «الملك سلمان للإغاثة»    الدول العربية تبلغ واشنطن رفض خطة ترمب لغزة    مصر: سنقدم تصورا متكاملا لإعادة إعمار غزة مع ضمان بقاء الفلسطينيين    بعد البشر والحجر.. الاحتلال يستهدف «المكتبات الفلسطينية»    مملكة الأمن والأمان    سلمان بن سلطان: القيادة تولي اهتمامًا بتنمية المحافظات    القيادة تهنئ الرئيس الإيراني بذكرى اليوم الوطني لبلاده    نيابة عن خادم الحرمين.. ولي العهد يرعى الحفل الختامي لمهرجان الملك عبدالعزيز للإبل    «ريمونتادا» مثيرة تقود ريال مدريد لكسر عقدة مانشستر سيتي بفوز تاريخي    شعرت بالاستياء لرحيل نيمار.. جيسوس: إمكانات" صلاح" تناسب الهلال.. ورونالدو فخر للبرتغاليين    "بونهور" مديراً فنياً لاتحاد كرة القاعدة والكرة الناعمة    أمير القصيم يكرم 27 يتيمًا حافظًا للقرآن    مجلس الوزراء برئاسة ولي العهد يؤكد : رفض قاطع لتصريحات إسرائيل المتطرفة بتهجير الفلسطينيين    مناقشة سبل مكافحة الأطفال المتسولين    إزالة «العقارات العشوائية» بمكة ينشط أسواق المستعمل والسكراب    قرد يقطع الكهرباء عن بلد بالكامل    من أعلام جازان.. المهندس يحيى جابر محسن غزواني    انطلاق فعاليات الاحتفاء بيوم التأسيس بتعليم جازان تحت شعار "يوم بدينا"    "التعزيز والإبداع في القصة القصيرة" و"ليلة العباس والمطمي" ضمن فعاليات معرض جازان للكتاب ٢٠٢٥م    فنانة مصرية تتعرض لحادث سير مروع في تايلاند    توثيق تطور الصناعة السعودية    الساعاتي..عاشق الكتب والمكتبات    رأس اجتماع لجنة الحج والزيارة بالمنطقة.. أمير المدينة: رفع مستوى الجاهزية لراحة المصلين في المسجد النبوي    أمير منطقة المدينة المنورة يرأس اجتماع لجنة الحج والزيارة بالمنطقة    أمريكية تفقد بصرها بسبب «تيك توك»    «حملة أمل» السعودية تعيد السمع ل 500 طفل سوري    بعض نقاط التمييز بين اضطرابات الشخصية    «المحتوى الشبكي».. من التفاعلية إلى الاستقطاب!    ما بعد الإنسانية    تعال.. فقد عشنا من الأزل    أول رحالة يعبر الأطلسي بقارب تجديف    صندوق الاستثمارات العامة شريكاً رسمياً لبطولة السعودية الدولية للسيدات للجولف    في الطيران.. الكلمات حياة    بصراحة مع وزير التعليم !    سفراء الإعلام جسر بين الأكاديميا وسوق العمل    أوغندا تسجل إصابات بإيبولا    الاستحمام البارد يساعد على النوم    القشطة والفطائر على وجبات الإفطار بالمسجد النبوي    توجّه لعقد اجتماع وزاري طارئ لمنظمة التعاون الإسلامي    القيادة تعزّي رئيس ناميبيا في وفاة مؤسس الجمهورية    زار" خيبر" واستقبل المواطنين.. أمير المدينة: القيادة مهتمة بتنمية المحافظات والارتقاء بمستوى الخدمات    رئيس الوزراء الصومالي يزور حي حراء الثقافي بمكة    الإنسان قوام التنمية    "مفوض الإفتاء بعسير": يستقبل آل جابر المُعين حديثًا    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.