الملك وولي العهد يعزيان ملك البحرين في وفاة الشيخ إبراهيم بن حمد آل خليفة    محمد بن سلمان حضور السعودية المتجدد وهم العرب    مبادرة عون.. تموضع لبنان بالمسار العربي    القيادة تهنئ رئيس لبنان بذكرى الاستقلال    الاتفاق يتغلب على الفيحاء في دوري روشن    ألعاب التضامن الإسلامي "الرياض 2025" .. أخضر اليد يسدل الستار على مشاركة المنتخبات السعودية بتحقيقه الميدالية الفضية    السرقة تحت غطاء المقدس    الموروث ضرورات التجديد وتحديات التشويه    تعادل ضمك والنجمة سلبيًا في دوري روشن للمحترفين    بيش يخطف وصافة دوري الدرجة الثالثة بفوز ثمين على الأسياح    سعودة المسلسلات الأجنبية.. خطر ناعم يخترق الأسر السعودية    G20 في جنوب إفريقيا: مقاطعة أمريكية وتحذير فرنسي حول مستقبل المجموعة    افتتاح جامع المجدوعي بالعاصمة المقدسة    تحديث «إكس» يفضح مواقع إنشاء حسابات قادت حملات سلبية ضد السعودية    وزير الخارجية: التحديات العالمية تتطلب تنسيقا دوليا مستمرا    228 مليار ريال نمو في سيولة الاقتصاد السعودي خلال عام    جامعة الإسكندرية تمنح باحثا سعوديا الدكتوراه في دراسة تربط بين القلق الرقمي وإدمان التواصل    الداخلية : ضبط (22094) مخالفاً لأنظمة الإقامة والعمل وأمن الحدود خلال أسبوع    أمير المنطقة الشرقية يدشّن غداً الأحد بحضور وزير النقل عددًا من مشاريع الطرق الحيوية بالمنطقة    السِّدر واللوز والتنضب تتصدر النباتات المحلية الملائمة لتشجير الباحة    المملكة تُدرِج 16 عنصرًا في قائمة اليونسكو للتراث غير المادي    صحراء مليحة بالشارقة تشهد انطلاق النسخة الثانية لمهرجان تنوير بأمسية فنية موسيقية وتجربة إنسانية ملهمة    طبيب أردني: "الذكاء الاصطناعي" قد يحل أزمة نقص الكوادر في العلاج الإشعاعي    فوز الأهلي والاتحاد والنصر والهلال في الجولة الأولى من الدوري الممتاز لكرة الطائرة    الصفا يتحدى اللواء بحثًا عن مصالحة جماهيره في الجولة التاسعة    كتاب التوحد في الوطن العربي.. قراءة علمية للواقع ورؤية للمستقبل    اتفاقية بين العوالي العقارية والراجحي كابيتال ب 2.5 مليار ريال لتصبح الأكبر في سيتي سكيب 2025    أمانة الطائف تطلق مبادرة (شاعر الأمانة) تشجيعًا للمواهب الإبداعية في بيئة العمل    الصين تطلق بنجاح قمرًا صناعيًا تجريبيًا جديدًا لتكنولوجيا الاتصالات    تراجع أسعار النفط لأدنى مستوياتها في شهر    انطلاق النسخة الأكبر لاحتفال الفنون الضوئية في العالم    افتتاح جامع المجدوعي بالعاصمة المقدسة    «سلمان للإغاثة» يوزّع (530) سلة غذائية في ولاية الخرطوم بالسودان    جوتيريش يدعو مجموعة العشرين لوضع حد للموت والدمار وزعزعة الاستقرار    الاتحاد يحقق انتصاره الأول في الدوري بقيادة كونسيساو ضد الرياض    نائب أمير الرياض يرعى احتفال السفارة العمانية بيومها الوطني    مؤتمر MESTRO 2025 يبحث تقنيات علاجية تغير مستقبل مرضى الأورام    أكثر من 100 الف زائر لفعاليات مؤتمر ومعرض التوحد الدولي الثاني بالظهران    عيسى عشي نائبا لرئيس اللجنة السياحية بغرفة ينبع    الشيخ صلاح البدير: الموت محتوم والتوبة باب مفتوح لا يغلق    الشيخ فيصل غزاوي: الدنيا دار اختبار والصبر طريق النصر والفرج    نادية خوندنة تتحدث عن ترجمة القصص الحجرة الخضراء بأدبي جازان    تعليم الأحساء يطلق مبادرة "مزدوجي الاستثنائية"    افتتاح مؤتمر طب الأطفال الثاني بتجمع تبوك الصحي    كيف يقلل مونجارو الشهية    العبيكان رجل يصنع أثره بيده    المودة تطلق حملة "اسمعني تفهمني" بمناسبة اليوم العالمي للطفل        أمير تبوك يرفع التهنئة للقيادة بمناسبة نجاح الزيارة التاريخية لسمو ولي العهد للولايات المتحدة الأمريكية    بيان سعودي أميركي مشترك: وقعنا شراكات في جميع المجالا    أمير تبوك يكرم شقيقين لأمانتهم ويقدم لهم مكافأة مجزية    انطلاق النسخة ال9 من منتدى مسك.. البدر: تحويل أفكار الشباب إلى مبادرات واقعية    محافظ جدة وأمراء يواسون أسرة بن لادن في فقيدتهم    الجوازات تستقبل المسافرين عبر مطار البحر الأحمر    فلسطين تبلغ الأمم المتحدة باستمرار الانتهاكات الإسرائيلية    ثمن جهودهم خلال فترة عملهم.. وزير الداخلية: المتقاعدون عززوا أمن الوطن وسلامة المواطنين والمقيمين    أمير الرياض يستقبل سفير المملكة المتحدة    استقبل وزير الحج ونائبه.. المفتي: القيادة حريصة على تيسير النسك لقاصدي الحرمين    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.