1662% زيادة بركاب القطارات    أسعار النفط تتراجع    تداول ينخفض 5 نقاط    واجهة وطنية    الرياض تحتضن ختام مؤتمر رؤساء وأمناء الاتحادات الآسيوية لكرة القدم 2025    القادسية يتغلب على نيوم بثلاثية في دوري المحترفين    لائحة جديدة لإنشاء الأوقاف أو تمويلها عبر التبرعات    "التحالف الإسلامي" يعقد دورة تدريبية وورشة عمل حول "التعامل مع التطرف الفكري في البيئة التعليمية" في المالديف    التعاون يقسو على ضمك بسداسية في دوري روشن للمحترفين    ارتفاع عدد الشهداء الفلسطينيين في القصف الإسرائيلي على قطاع غزة إلى 36 شهيدًا    الدفاع المدني ينفذ تجربة صافرات الإنذار الثابتة في عدة مناطق بالمملكة    موسم الخبر.. قادم    عندما يعطس الاقتصاد الأميركي يصاب العالم بالزكام    تحت شعار «عزّك وملفاك»    وزارة الخارجية: المملكة ترحب بتوقيع باكستان وأفغانستان على وقف فوري لإطلاق النار    الحوثي يحتجز 20 موظفا أمميا    أسياد البحرين 2025: أخضر اليد يكتسح المالديف.. وأخضر الصالات يتعادل مع البحرين    أمير الشرقية يكرم مواطنين لإخمادهما حريقا في محل تجاري بالجبيل    تحديث ومواءمة النطاقات الإشرافية البلدية    رئيس الشورى يرأس الاجتماع التنسيقي العربي    المرور يضبط أكثر من 6 آلاف دراجة آلية مخالفة خلال أسبوع    ولي العهد يعزي رئيس وزراء اليابان    نائب أمير جازان يزور الأديب إبراهيم مفتاح للاطمئنان على صحته    أمير منطقة جازان يستقبل المدير العام لفرع وزارة الموارد البشرية والتنمية الاجتماعية    غدًا.. أمانة منطقة جازان تُنظّم ملتقى "خُطى التطوع" لتمكين العمل البلدي والإسكاني    لا مال بعد الموت    "خيرية القطيف" تشارك "الأمل" ب"التبكيرة خيرة"    فرع الشؤون الإسلامية بجازان ينفّذ حملة وقائية ضد الإنفلونزا الموسمية في صبيا    نائب أمير الشرقية يستقبل المشرف العام على البعثة التعليمية في البحرين ومدير عام التعليم بالمنطقة    أمير القصيم يستقبل محافظ البكيرية ورئيس جمعية تحفيظ القرآن بالهلالية    أكثر من 10 آلاف فرصة استثمارية لرواد الأعمال في "بيبان 2025"    مفردات من قلب الجنوب 26    نواب أمريكيون يحذرون من تسريح جماعي يهدد أمن الترسانة النووية    زلزال يضرب إندونيسيا    ديوان المظالم يحصل على شهادة الهلال الأحمر للسلامة الإسعافية    الشاشات تقلل التحصيل الدراسي لدى الأطفال    باحثون صينيون يصممون روبوتًا دقيقًا ثلاثي الأبعاد للعلاج الدقيق    كلاسيكو مرتقب يجمع ليفربول ومانشستر يونايتد    الهلال يقسو على الاتفاق بخماسية    خلال الجولة الآسيوية للرئيس الأمريكي.. قمة مرتقبة بين ترمب وكيم جونغ    «911» يتلقى 83 ألف مكالمة في يوم واحد    مبادرات أوروبية لتمويل الحرب.. زيلينسكي يتكتم على صواريخ «توماهوك»    «بوح الثقافي» يكرم الضامن    بيع فرخ شاهين ب119 ألفاً في ثامن ليالي مزاد الصقور    ياغي يؤكد أن تمكين ولي العهد أسهم في مسيرته العملية.. والسواحه: دعم القيادة حقق المنجزات لأبناء وبنات الوطن    اختتام منافسات الأسبوع الأول من سباقات الخيل بالرياض    القطان يحتفل بزواج حسن    فتاة تخرج «عجوزاً» بعد ربع قرن على احتجازها    «زاتكا» تحبط 1507 محاولات تهريب    إصابة الإعلامية نجوى إبراهيم في حادث بأميركا    إنجاز طبي ينهي أزمة زراعة الكلى عالمياً    خطيب المسجد الحرام: الثبات على الإيمان منّة من الله    الإعلام الحقوقي.. ضرورة وطنية مُلحّة    «ابن صالح» إمام المسجد النبوي ومربي الأجيال.. توازن بين العلم والعمل    أكثر من 13 مليون قاصد للحرمين الشريفين خلال أسبوع    لائحة لإنشاء الأوقاف وتمويلها عبر التبرعات    أمير منطقة جازان يطمئن على صحة الأديب إبراهيم مفتاح    أمير منطقة جازان يطمئن على صحة الشيخ العامري    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.