حرم ولي العهد تتبرع لصندوق دعم الأطفال المصابين بداء السكري من النوع الأول ب10 ملايين ريال    من النص إلى النشر".. نادي مداد وبيت الثقافة بجيزان يناقشان تجربة الكاتب وقارئه الأول    جمعية عين لطب العيون تنظم فعالية توعوية بمناسبة اليوم العالمي للسكري في جازان تحت شعار "فحصك اليوم    الأسهم العالمية تتراجع بشدة مع تبدد آمال خفض أسعار الفائدة    ديوان المظالم يفوز بجائزتين دوليّتَين في تجربة العميل 2025    الأفواج الأمنية تضبط 6 كجم من القات المخدر في عسير    الدوسري: برّ الوالدين من أعظم القربات إلى الله    البعيجان: الإخلاص أصل القبول وميزان صلاح الأعمال    «زاتكا» تضبط 33.5 ألف كبتاجون و21 كغم شبو في محاولتي تهريب    جامعة الإمام عبدالرحمن بن فيصل تعزز الوعي بداء السكري في سكرك بأمان    النفط يرتفع 1% وسط مخاوف نقص الإمدادات الروسية    152 توأماً من 28 دولة.. والمملكة تحتفل بالإنجاز الجراحي رقم 67    جامعة محمد بن فهد تستذكر مؤسسها في احتفالية تخريج أبنائها وبناتها    فرنسا تصعد لنهائيات كأس العالم 2026 برباعية في أوكرانيا    "أوتشا": استمرار الضربات العسكرية الإسرائيلية بالقرب من أو شرق الخط الأصفر    تراجع أسعار الذهب من أعلى مستوى لها في أكثر من ثلاثة أسابيع    موسم الدرعية 25/26 يستعد لإطلاق مهرجان الدرعية للرواية الأحد المقبل    مصرع طيار تركي إثر تحطم طائرة إطفاء في كرواتيا بعد انقطاع الاتصال بها    الفن يُعالج... معارض تشكيلية في المستشفيات تعيد للمرضى الأمل    أفضل خمس خدمات بث فيديو    %48 من القوى العاملة في المنشآت العائلية    «الأرصاد» في إنذار أحمر : أمطار غزيرة على جدة اليوم الجمعة    رحلة الحج عبر قرن    الفيفا يختار هدف عمرو ناصر في الأهلي المصري ضمن القائمة المختصرة لجائزة بوشكاش    الأخضر السعودي يختتم استعداده لمواجهة ساحل العاج    شبكة عنكبوتية عملاقة    اللاعب السعودي خارج الصورة    غدٌ مُشرق    عدسة نانوية لاكتشاف الأورام    انطلاق "موسم شتاء درب زبيدة 2025" في محمية الإمام تركي بن عبدالله الملكية    المدير الرياضي في الأهلي: غياب توني لأسباب فنية    وزير "البيئة" يلتقي قطاع الأعمال والمستثمرين بغرفة الشرقية    مفتي عام المملكة يستقبل وزير العدل    الدفاع المدني يهيب بأخذ الحيطة والالتزام بالتعليمات مع توقع هطول أمطار رعدية على معظم المناطق    غرفة القصيم توقع تفاهمًا مع الحياة الفطرية    منسوبو وطلاب مدارس تعليم جازان يؤدّون صلاة الاستسقاء    "محافظ محايل" يؤدي صلاة الاستسقاء مع جموع المصلين    محافظ صبيا يؤدي صلاة الاستسقاء تأسياً بسنة النبي واستجابة لتوجيه خادم الحرمين الشريفين    أول اجتماع لمكتب المتقاعدين بقوز الجعافرة    مصرية حامل ب9 أجنة    الثقوب الزرقاء ورأس حاطبة.. محميتان بحريّتان تجسّدان وعي المملكة البيئي وريادتها العالمية    محافظ محايل يزور مستشفى المداواة ويطّلع على مشاريع التطوير والتوسعة الجديدة    ذاكرة الحرمين    في أولى ودياته استعداداً لكأس العرب.. الأخضر السعودي يلتقي ساحل العاج في جدة    ترمب يواجه ردة فعل مشابهة لبايدن    تعزز مكانة السعودية في الإبداع والابتكار.. إطلاق أكاديمية آفاق للفنون والثقافة    «مغن ذكي» يتصدر مبيعات موسيقى الكانتري    160 ألف زائر للمعرض.. الربيعة: تعاقدات لمليون حاج قبل ستة أشهر من الموسم    القيادة تعزي رئيس تركيا في ضحايا تحطم طائرة عسكرية    وفد رفيع المستوى يزور نيودلهي.. السعودية والهند تعززان الشراكة الاستثمارية    آل الشيخ ورئيسا «النواب» و«الشورى» يبحثون التعاون.. ولي عهد البحرين يستقبل رئيس مجلس الشورى    وسط مجاعة وألغام على الطرق.. مأساة إنسانية على طريق الفارين من الفاشر    يجتاز اختبار القيادة النظري بعد 75 محاولة    شهدت تفاعلاً واسعاً منذ إطلاقها.. البلديات: 13 ألف مسجل في مبادرة «الراصد المعتمد»    النويحل يحتفل بزواج عمر    طهران تؤكد جديتها في المفاوضات النووية.. إيران بين أزمتي الجفاف والعقوبات    استعرض مع ولي عهد الكويت التعاون.. وزير الداخلية: مواجهة الجريمة والإرهاب بمنظومة أمنية خليجية متكاملة    تصفيات مونديال 2026.. فرنسا وإسبانيا والبرتغال لحسم التأهل.. ومهمة صعبة لإيطاليا    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.