ختام أكبر هاكاثون في العالم "أبشر طويق"    مقتل شخصين وإصابة ثمانية جراء إطلاق النار في جامعة براون في أمريكا    حققت قفزة نوعية بمعدل 9 نقاط خلال عامين.. السعودية بالمرتبة ال10 بمؤشر التغطية الصحية الشاملة    45 اتفاقية ومذكرة لصندوق التنمية الوطني.. 6 مليارات ريال تمكيناً لشراكات القطاع الخاص    دعت لتبني سلوكيات التنزه.. البيئة: 3 آلاف ريال غرامة مخالفة التخييم دون تصريح    لحظة تأمُّل    وسط انتقادات واشنطن لقرار أممي.. مؤتمر دولي لبحث إنشاء «قوة غزة»    جيش الاحتلال يستهدف القيادي في حماس رائد سعد    1092 توفوا في غزة نتيجة تأخر الإجلاء الطبي ونقص الإمدادات    المنتخب الوطني يواصل تحضيراته لمواجهة الأردن    برعاية خادم الحرمين.. أمير الرياض يحضر ختام العرض الدولي الثامن لجمال الخيل العربية الأصيلة    تنظيم الإعلام الرياضي وعقوبات على المتجاوزين ومثيري التعصب.. بعد الموافقة عليه.. تفاصيل مشروع نظام الرياضة الجديد    ضبط 19.5 ألف مخالف    أمطار على معظم المناطق حتى نهاية الأسبوع    1145 حالة ضبط لممنوعات بالمنافذ    يسرا اللوزي تستعد بمسلسلين لرمضان    أمسية شعرية وطنية في «جدة للكتاب»    فسح وتصنيف 40 محتوى سينمائياً    تنظمها وزارة الشؤون الإسلامية.. دورات متخصصة لتأهيل الدعاة والأئمة ب 3 دول    المملكة تقود مستقبل التحول الرقمي    دراسة: كلما زاد إقناع الذكاء الاصطناعي قلت دقته    المملكة توزع 1000 سلة غذائية في ولاية البحر الأحمر بالسودان    القبض على شخصين لترويجهما القات    ضبط 19576 مخالفاً للإقامة والعمل وأمن الحدود    الأخضر يتجهز لمواجهة الأردن بفترة «حرة»    تقرير بريطاني يفتح الباب لرحيل صلاح نحو الدوري السعودي    كوزمين: هدفنا النهائي    أمير الشرقية يرعى تكريم الفائزين بجائزة الأحساء للتميز.. غداً    «جائزة الإعلام» تطلق مسار «التميّز»    ورحلت رفيقة دربي أُم تركي    تحسين الفئات الوظيفية ل3808 من منتسبي المساجد    «الأمر بالمعروف» تفعّل معرض «ولاء» بالطائف    مهاجم نادي الفيحاء يخضع لعملية جراحية ناجحة بمجمع الدكتور سليمان الحبيب الطبي في العليا    مستشفيات الدكتور سليمان الحبيب بالخبر والمحمدية والفيحاء والحمراء والصحافة تحصل على شهادة الاعتماد الدولية JCI    71.5% من الأنشطة العقارية بالرياض    2.31 تريليون دولار قيمة الإقراض بالبنوك الخليجية    السوق السعودية يغلق الأسبوع على مكاسب محدودة    حقن التخسيس تدخل عالم القطط    النوم الجيد مفتاح النشاط اليومي    رب اجعل هذا البلد آمنا    ترمب: هجوم تدمر حدث في منطقة خارج سيطرة الحكومة السورية    «هوبال» يحصد جائزة «فاصلة» لأفضل فيلم سعودي    تشكيل منتخب السعودية المتوقع أمام الأردن في كأس العرب    العزاب يغالطون أنفسهم    غزة بين آثار الحرب والطقس القاسي مع استمرار الضربات العسكرية    السعودية تواصل إيواء النازحين في جنوب غزة    زبرجد فيلم روائي يجذب زوار معرض جدة للكتاب    الملك يرعى الحفل الختامي للعرض الثامن لجمال الخيل العربية الأصيلة    فريق قوة عطاء التطوعي يحتفي باليوم العالمي للتطوّع ويكرّم أعضاءه    ورشة عمل في فندق كراون بلازا تحت إشراف جمعية القلب السعودية ضمن حملة 55 قلبك بخير    سماء المنطقة العربية تشهد زخة قوية من الشهب هذه الليلة    كشف السلطة في محل الفول: قراءة من منظور فوكو    رئيس دولة إريتريا يصل إلى جدة    نائب أمير الرياض يعزي أبناء علي بن عبدالرحمن البرغش في وفاة والدهم    غرفة إسكندراني تعج بالمحبين    القيادة تعزّي ملك المغرب في ضحايا انهيار مبنيين متجاورين في مدينة فاس    طيور مائية    ولي العهد يفتتح مرافق قاعدة الملك سلمان الجوية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.