أمير تبوك يتسلم التقرير السنوي لجوازات المنطقة    "أوكيو" تدشّن المرحلة التشغيلية لبرنامج "لدائن" بتسعة مصانع    "البيئة" تحذّر من الاحتطاب الجائر وتؤكد: عقوبات رادعة لحماية الغطاء النباتي    نائب أمير المنطقة الشرقية يستقبل رئيس وأعضاء جمعية "تعافي"    محافظ الأحساء يرأس اجتماع برنامج المدن الصحية    إطلاق مبادرة "احترافية القرار" لتمكين طلاب المرحلة الثانوية من مهارات اتخاذ القرار    لقاء ديوانية جمعية أكابر لكبار السن بمنطقة عسير لعام 2025م    الشؤون الإسلامية في جازان تشارك في معرض الدوائر الحكومية المتزامن مع اليوم العالمي لحقوق الإنسان    الشؤون الإسلامية بالمدينة تشارك في البرنامج التوعوي "إنما يعمر مساجد الله من آمن" بمحافظة ينبع خلال شهر جمادى الآخرة    القيادة تهنئ ملك مملكة بوتان بذكرى اليوم الوطني لبلاده    مسار رياضي لذوي الإعاقة بتعليم مكة    وزارة الداخلية تطلق حزمة خدمات رقمية جديدة تعزز التحول الرقمي والذكاء الاصطناعي    أمين التعاون الإسلامي: السلام العادل لن يتحقق إلا بإنهاء الاحتلال والاستيطان وتجسيد سيادة دولة فلسطين    الشؤون الإسلامية بجازان تُنفّذ (555) جولة فنية في الجوامع والمساجد خلال شهر نوفمبر 2025م    15 يوما على تطبيق قرار إلزام شركات الطرود بعدم استلام الشحنات البريدية دون العنوان الوطني    جستر محايل تزور غرفة عمليات المدن الصحية بالمركز الشبابي    نائب أمير منطقة مكة يستقبل وفد من أعضاء مجلس الشورى    أمير منطقة الجوف يرأس اجتماع المحافظين الأول للعام 1447ه    وزير الخارجية يستقبل رئيس مجلس أمناء وأعضاء مركز أكسفورد للدراسات الإسلامية    المساحة الجيولوجية : الهزة الأرضية المسجلة اليوم بالمنطقة الشرقية لم تحدث خسائر    أمانة الشرقية ومركز البركة يوزعان 300 حقيبة شتوية على عمال النظافة    الهيئة العامة للنقل وجمعية الذوق العام تطلقان مبادرة "مشوارك صح"    نوح ومحمد أكثر الأسماء شعبية في كندا لعام 2024    مسجد عمر بن الخطاب.. معلم إسلامي تاريخي يروي بدايات العمارة الدينية    مظلات المسجد النبوي.. تُحف وإبداع معماري    فيصل بن مشعل يطلع على برامج الكلية التطبيقية بجامعة القصيم    شوطا «المنغولية» في أكبر تجمع للصقور بالعالم    «هيئة الحرمين» توفّر سوارًا تعريفيًا للأطفال    أمير نجران يُدشِّن مبادرة النقل الإسعافي للمرضى المحتاجين    مستشفى الدكتور سليمان الحبيب بالصحافة يفتتح أحدث مركز للطب النووي والتصوير الجزيئي    تعليق الدراسة.. قرار تنظيمي تحكمه إجراءات ومعايير واضحة    جودة الحياة: تقدم جودة الحياة في مدن السعودية    إطلاق برنامج «خبراء التطوير المهني» التعليمي    رصد مخالفات بيع على الخارطة.. هيئة العقار: مباشرة الإجراءات النظامية بحق 25 مطوراً عقارياً    أمينة العنزي: أول رائدة في مجال الصقارة بالحدود الشمالية    أبها يحافظ على الصدارة.. وسباق الهدافين يشتعل بين سيلا سو و نوانكو    الأخضر بطلاً لكأس الخليج تحت 23 عاماً    ولي العهد يتلقى رسالة خطية من رئيسة تنزانيا    فوز المملكة برئاسة اتحاد إذاعات الدول العربية    الإعلام تنظم جلسة «حديث إمباك» بصنع في السعودية    الرياض وجمال المطر    في دور ال 32 لكأس ملك إسبانيا.. قطبا العاصمة أمام تالافيرا وبالياريس    حققت 26 جائزة متقدمة على الولايات المتحدة الأمريكية.. السعودية الأولى عالمياً في مسابقة WAICY للذكاء الاصطناعي    الحياة الفطرية يطور الحوكمة ب« الثقوب الزرقاء»    القيادة تعزي ملك المغرب في ضحايا الأمطار والفيضانات    «المطوف الرقمي».. خدمات ذكية لتيسير أداء المناسك    بسبب قمع المعارضين.. كندا تفرض عقوبات على مسؤولين إيرانيين    ترفض أي وجود لقوات غربية.. روسيا تسعى لإنهاء الحرب في أوكرانيا    «أمهات المختطفين»: عذبوا المحتجزين.. مطالبة باستبعاد مسؤولين حوثيين من مفاوضات مسقط    الصحة العالمية: ظهور سلالة فيروسية جديدة للإنفلونزا    5 أشياء في منزلك تزيد من خطر السرطان    تراجع النفط إلى أدنى مستوياته الشهرية    ولي العهد يتلقى رسالة خطية من رئيسة جمهورية تنزانيا المتحدة    ساركوزي قد يمثل أمام القضاء مجدداً بشبهة التلاعب بالشهود    ترامب وقع أوامر تنفيذية في أقل من عام أكثر ممّا وقعه في ولايته الأولى    أمير جازان يستقبل القنصل العام لجمهورية السودان    زيلينسكي: مقترحات إنهاء الحرب في أوكرانيا قد تُعرض على روسيا خلال أيام    أمير جازان يستقبل مدير عام حرس الحدود    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.