شتاء درب زبيدة ينطلق بمحمية الإمام تركي    الشتاء يفتح جبهة جديدة على النازحين في غزة    الشؤون الإسلامية في جازان تنفذ مبادرة ( وعيك أمانك ) في مقر إدارة مساجد محافظتي الدرب وفرسان    «سواحل عسير» وجهة للسياحة الشتوية    «بيئة القصيم» تُفعّل يوم الغذاء العضوي    3 ملايين زائر لموسم الرياض 2025 خلال 35 يوما    المرأة روح المجتمع ونبضه    السودان بين احتدام القتال وتبادل الاتهامات    ترمب يطالب قناة إخبارية بريطانية بخمسة مليارات دولار تعويضًا عن التزييف لأحد خطاباته    نيابة عن وزير الداخلية.. الفالح يرأس وفد المملكة في مؤتمر لتعزيز التعاون الأمني    أمير الرياض يتوج (الطيار) بكأس الأمير محمد بن سعود الكبير    تهنئة ملك بلجيكا بذكرى يوم الملك لبلاده    رينارد يريح الصقور    "دوريات جازان" تُحبط تهريب 33 كيلو جراماً من القات المخدر    حائل الفاتنة وقت المطر    ترحيل 14916 مخالفا للأنظمة    "الداخلية" تحصد جائزة أفضل جناح في مؤتمر الحج    "الشريك الأدبي".. الثقافة من برجها العاجي إلى الناس    ملامح حضارة الصين تتنفس في «بنان»    وزير الثقافة: الاستثمار الثقافي رافد الفرص الواعدة في المملكة    وزير الشؤون الإسلامية يستقبل وزير الشؤون الدينية في بنغلاديش    وزير الحج: إنجاز إجراءات التعاقدات لأكثر من مليون حاج من مختلف الدول    "الحج والعمرة" وجامعة الملك عبدالعزيز توقعان مذكرة تفاهم لخدمة ضيوف الرحمن    تدشين صندوق دعم الأطفال المصابين بالسكري    مستشفى الدكتور سليمان الحبيب بالمحمدية في جدة يُجري جراحة متقدمة بالروبوت لإنهاء معاناة ثلاثينية مع ورم بالمبايض بطول 10سم    البرتغال تتحرّك لتخفيف عقوبة كريستيانو رونالدو    السعودية ترحب باتفاق السلام بين الكونغو الديمقراطية وحركة 23 مارس    لكل من يستطيع أن يقرأ اللوحة    دور ابن تيمية في النهضة الحضارية الحديثة    متنزه Six Flags في القدية يستقبل الزوار اعتبارًا من 31 ديسمبر المقبل    إنسانيةٌ تتوَّج... وقيادة تحسن الاختيار: العالم يكرّم الأمير تركي بن طلال    جمعية القطيف الخيرية تطلق أول سيارة لخدمة ذوي الهمم وكبار السن    مكانة الكلمة وخطورتها    الملك وولي العهد يعزيان رئيس العراق في وفاة شقيقه    وزير البلديات والإسكان: رؤية للتحول نحو أول وزارة ذكية في العالم    علاقة الإبداع بضعف الذاكرة    انتصار مهم لنادي بيش في الجولة الرابعة أمام الخالدي    وفاة 11 وفقد 12 إثر انهيار أرضي في إندونيسيا    هطول أمطار في 8 مناطق ومكة الأعلى كميةً ب58,6 ملم في رابغ    أمانة جدة تباشر جهودها الميدانية للتعامل مع حالة الأمطار    ابتدائية مصعب بن عمير تفعل اليوم العالمي للسكري عبر إذاعة مدرسية تثقيفية    أمير منطقة الجوف يستقبل رئيس المجلس التأسيسي للقطاع الصحي الشمالي    تجمع الرياض الصحي يبرز دور "المدرب الصحي" في الرعاية الوقائية    بلدية صبيا تنفّذ أعمال تطوير ممرات المشاة أمام المدارس    قسم الإعلام بجامعة الملك سعود يطلق برنامج "ماجستير الآداب في الإعلام"    مؤتمر الشرق الأوسط ال19 للتآكل يختتم أعماله في المنطقة الشرقية    بمشاركة 15 جهة انطلاق فعالية "بنكرياس .. حنا نوعي الناس" للتوعية بداء السكري    الأخضر السعودي يهزم ساحل العاج بهدف أبو الشامات وديًا    زلزال بقوة 5.7 درجات يضرب قبالة سواحل مملكة تونغا    أخضر اليد يتغلب على نظيره العراقي في «الرياض 2025»    مجمع هروب الطبي يفعّل مبادرتين صحيتين بالتزامن مع اليوم العالمي للسكري    جامعة محمد بن فهد تستذكر مؤسسها في احتفالية تخريج أبنائها وبناتها    الفن يُعالج... معارض تشكيلية في المستشفيات تعيد للمرضى الأمل    "محافظ محايل" يؤدي صلاة الاستسقاء مع جموع المصلين    محافظ محايل يزور مستشفى المداواة ويطّلع على مشاريع التطوير والتوسعة الجديدة    آل الشيخ ورئيسا «النواب» و«الشورى» يبحثون التعاون.. ولي عهد البحرين يستقبل رئيس مجلس الشورى    وسط مجاعة وألغام على الطرق.. مأساة إنسانية على طريق الفارين من الفاشر    القيادة تعزي رئيس تركيا في ضحايا تحطم طائرة عسكرية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.