القيادة تعزّي أمير وولي عهد الكويت.. وتهنئ رئيس الكونغو    أداء مطاري الجوف والقريات على طاولة فيصل بن نواف    استعراض "بيدي" لتأهيل الفتيات أمام سعود بن نايف    نمو صافي تدفقات الاستثمار الأجنبي يعزز مكانة المملكة كمركز استثماري إقليمي وعالمي    أمير جازان يستقبل مدير الشرطة والمرور بالمنطقة ويطلع على تقرير المرور    لاعب برشلونة يرد على النصر    شبكة القطيف الصحية تنظم دورة تخصصية في تمريض النساء والتوليد    رئيس مجلس الشورى يصل إلى مملكة كمبوديا في مستهل زيارة رسمية    نمو أصول صندوق الاستثمارات إلى 4.32 تريليون ريال وإيرادات 413 مليار ريال    حملة توعوية وتثقيفية على مغاسل الملابس بالظهران    ارتفاع عدد الشهداء الفلسطينيين في القصف الإسرائيلي على غزة إلى 58 شهيدًا    أمير جازان يكرّم الفائزين بجائزتي المواطنة المسؤولة و"صيتاثون" في دورتها الرابعة    غرفة الشرقية تناقش دور القطاع الخاص في البرنامج الوطني للتشجير    فهد بن سعد بن فيصل يطلع على أبرز البرامج والإنجازات لتجمع القصيم الصحي    خادم الحرمين يتلقى رسالة خطية من رئيس جمهورية فيتنام الاشتراكية    أمير جازان يستقبل قائد قوة الطوارئ الخاصة بالمنطقة    الأمير محمد بن عبدالعزيز يدشن عددًا من المشروعات بجامعة جازان    "الشمري": يزور مدير عام فرع وزارة الشؤون الإسلامية بالمنطقة    جمعية "وقاية" تنظّم معرضاً توعوياً وندوة علمية بمستشفى وادي الدواسر    السمنة مرض مزمن لا ضعف إرادة    لمسة وفاء.. سلطان بن أحمد السديري    الاحمدي يكتب.. جمَّلتها ياهلال    البيعة الثامنة لولي العهد بلغة الثقافة والفنون    هيئة الموسيقى السعودية وعازف البيانو الصيني وأول برنامج صيفي لتعليم البيانو في المملكة    سعد الصقير أول طبيب أمراض جلدية من دول الخليج يحصل على وسام القيادة الدولية في الأمراض الجلدية لعام 2025    كندا تلغي ضريبة الخدمات الرقمية    تصعيد متبادل بين العقوبات والمواقف السياسية.. روسيا تشن أعنف هجوم جوي على أوكرانيا    التعليم في ميزان المجتمع    توقيف شخصين ظهرا في محتوى مرئي بسلاحين ناريين    نقل 1404 مرضى داخل المملكة وخارجها عبر 507 رحلات إخلاء    الملكية الفكرية ليست مائدة نقاش ديني.. بل مبدأ لا يُمس!    ترسيخ الحوكمة وتعزيز التكامل بين الجهات ذات العلاقة.. السعودية تقفز إلى المرتبة 13 عالمياً في حقوق الملكية الفكرية    موجز    المملكة تقود تعاوناً دولياً لدعم الطاقة النظيفة    انطلق في مدينة الملك عبدالعزيز للعلوم والتقنية.. "جيل الابتكار".. يعزز ثقافة البحث لدى الموهوبين السعوديين    ما عاد في العمر متسع للعتاب    مادتا التعبير والخط    بحثا جهود الحفاظ على أمن واستقرار المنطقة.. وزير الدفاع ورئيس هيئة الأركان الإيرانية يستعرضان العلاقات    مدرب تشيلسي ينتقد الفيفا ومونديال الأندية    أكد أهمية مناهج التعليم الديني.. العيسى يشدد: تحصين الشباب المسلم من الأفكار الدخيلة على "الاعتدال"    وزارة الخارجية تُعرب عن تعازي المملكة لجمهورية السودان إثر حادث انهيار منجم للذهب    نائب أمير مكة والقنصل العراقي يناقشان الموضوعات المشتركة    رئيس "الشورى" يبحث تعزيز العلاقات البرلمانية في كمبوديا    دواء جديد يعطي أملاً لمرضى السكري من النوع الأول    "الصحة العالمية" تفشل في تحديد سبب جائحة كوفيد- 19    أخضر السيدات يخسر أمام الفلبين بثلاثية في تصفيات كأس آسيا    الأحوال المدنية المتنقلة تقدم خدماتها في خمسة مواقع    «الشؤون النسائية بالمسجد النبوي» تُطلق فرصًا تطوعية    فاطمة العنزي ممثلة الحدود الشمالية في لجنة المسؤولية الاجتماعية بالاتحاد السعودي للدراجات    استعراض أعمال الشؤون الإسلامية أمام أمير تبوك    الجامعة الإسلامية تدعم الأبحاث المتميزة    "الملك سلمان للإغاثة".. جهود إنسانية متواصلة    بعنوان "النمر يبقى نمر".. الاتحاد يجدد عقد مدافعه "شراحيلي" حتى 2028    نائب أمير منطقة مكة يستقبل القنصلَ العام لجمهورية العراق    أمير تبوك يطلع على التقرير السنوي لاعمال فرع وزارة الشؤون الاسلامية بالمنطقة    الشؤون الإسلامية في جازان تنفذ جولات ميدانية لصيانة جوامع ومساجد المنطقة    ترامب يحث الكونغرس على "قتل" إذاعة (صوت أمريكا)    أقوى كاميرا تكتشف الكون    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.