وزير الدفاع يرأس وفد المملكة في اجتماع الدورة ال 22 لمجلس الدفاع الخليجي المشترك    أمير تبوك يستقبل سفير دولة الكويت لدى المملكة    أمير الشرقية يستقبل وفود هيئة الربط الكهربائي ومنتجي الدواجن والاتحاد العربي لكرة اليد وجمعية الذوق العام    مشاركة ماونتن ڤيو في سيتي سكيب العالمي... حضور استثنائي ورسالة واضحة عن مستقبل السكن في المملكة    البيت الأبيض: ترامب لا يزال متفائلا بشأن خطة إنهاء الحرب في أوكرانيا    نائب وزير الخارجية يستقبل مفوض وزارة الخارجية الألمانية    الأفواج الأمنية بجازان تُحبط تهريب 68 كيلو جرامًا من مادة الحشيش المخدر    إصدار 25,646 قرارًا إداريًا بحق مخالفين لأنظمة الإقامة والعمل وأمن الحدود    اتفاقية صحية لرفع جاهزية بنوك الدم وتوسيع نطاق حملات التبرع    متطوعو "الأحساء تستاهل" ينظفون 700 متر من قنوات المياه    مركز الملك سلمان للإغاثة يُنظِّم معرضًا لإبراز الجهود الإنسانية للمملكة في اليوم العالمي للتوائم الملتصقة بنيويورك    ضيف الله الحربي يكتب..أندية الصندوق الواقع والمأمول    بنك التنمية الاجتماعية بخميس مشيط في زيارة لجمعية البر بأبها    وزير الدفاع يصل الكويت لرئاسة وفد المملكة في اجتماع الدفاع الخليجي المشترك    روسيا تطالب بجدول زمني لانسحاب الاحتلال الإسرائيلي    اختفاء نجم من السماء مساء الأمس لمدة 28 ثانية    رئيس وزراء تايوان: "العودة" للصين ليست خيارا للشعب التايواني    كراسنودار الروسية تتعرض لهجوم "ضخم"    الأطفال يتابعون الصقور عن قرب    الإرهابي والعلاقات السعودية الأمريكية    الأسواق الرقمية تستجيب لتوقعات خفض الفائدة    60% من قادة الأعمال بالمملكة على دراية بالتهديدات التقنية    104% زيادة بتوثيق عقود الشركات    ليلة السقوط الآسيوي للاتحاد والأهلي    الجوف.. مواقع تاريخية تجذب الزوار    117 دقيقة لأداء العمرة    الخريف في فعاليات يوم الاستثمار والشراكات ل "اليونيدو" يؤكد ريادة المملكة الصناعية عالميًا    زراعة أصغر منظم قلب لمولودة تزن 2 كجم    بعد مقتل الطباطبائي وأربعة من مرافقيه.. استنفار بإسرائيل واحتمالات مفتوحة لرد حزب الله    تحت رعاية عبدالعزيز بن سعود.. تكريم المتقاعدين من منسوبي الأحوال المدنية    مجلس الشؤون الاقتصادية استعرض تقارير التنمية.. نمو قوي بمختلف القطاعات وترسيخ مكانة المملكة    «التجارة» تشهر بمخالف ارتكب الغش التجاري    تقويم التعليم تطلق الرخصة المهنية للمدربين    تطبيق الGPS.. ماله وما عليه    230 شركة في المنتدى السعودي الفرنسي    ميسي يتألق ويقود ميامي لنهائي المنطقة الشرقية    في الجولة الخامسة لدوري أبطال أوروبا.. برشلونة يواجه تشيلسي في قمة كلاسيكية.. ومان سيتي يستقبل ليفركوزن    عمار يا دمشق من غير إيكوشار    ضجيج اللحظة    أحمد السقا يستعد ل «خلي بالك من نفسك»    «عدالة التحكيم وتأخر التجديد في الهلال»    "الشؤون الإسلامية" تسلم 25 ألف مصحف للمالديف    من السويد إلى قطاع غزة.. وثائق جديدة تكشف مسارات تبرعات «الإخوان» المشبوهة    إقالات داخل الجيش الإسرائيلي.. الاحتلال يجدد القصف على خان يونس    الميكروبات المقاومة للعلاجات (1)    قطع غيار    تعزيز قدرات الاكتشاف المبكر للأعراض..«الغذاء»: ربط قاعدة التيقظ الدوائي بمنصة الصحة العالمية    قرعة نصف نهائي كأس الملك تقام 30 نوفمبر في استوديوهات "ثمانية"    لبنان بين ضربة الطبطبائي واستعدادات ما بعد الاغتيال    أمير منطقة جازان يتفقد سير العمل في وكالة الشؤون الأمنية بالإمارة    جامعة أم القرى تحقق مراتب متقدمة في التصنيفات العالمية    هيئة تقويم التَّعليم والتَّدريب تستعرض الرُّخص المهنيَّة للمدرِّبين في لقاء بجامعة أمِّ القرى    أمير تبوك يطلع على تقرير فرع وزارة الشؤون الإسلامية بالمنطقة    «الحج»:«نسك عمرة» منصة موحدة وتجربة ميسرة    الناهشون في جسد النجاح!!    حين يكون العطاء لغة وطن    117 دقيقة مدة زمن العمرة خلال شهر جمادى الأولى    العبيكان رجل يصنع أثره بيده    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.