الأردن تتغلب على الإمارات بثنائية في كأس العرب    مجمع بيش الثانوي يُفعّل اليوم العالمي لذوي الإعاقة    الشباب والفتيات جيل يتحمل المسؤولية بثقة ونضج    قمة خليجية- إيطالية في البحرين لترسيخ الشراكة    القبض على يمني في المدينة المنورة لترويجه مواد مخدرة    افتتاح متحف زايد الوطني في أبوظبي    السعودية والبحرين توقعان 9 مذكرات تفاهم في عدد من المجالات    ضبط مصنع في الرياض يتلاعب بأعداد المناديل الورقية داخل العبوات    الدفاع المدني يحتفي بيوم التطوع    نقاط خدمة جديدة لحافلات المدينة    منال القحطاني تعيد الحياة لطفلة في لحظة حرجة    لجنة التنسيق السعودية الكويتية: الاتفاق على مبادرات مصانع المستقبل والتكامل في سلاسل الإمداد وقواعد المنشأ    منتدى القطاع غير الربحي الدولي يبحث مستقبل الشفافية في العمل الخيري    إقحام أنفسنا معهم انتقاص لذواتنا    لم يكن يعبأ بأن يلاحقه المصورون    طالبان تؤكد أن أفغانستان لا صلة لها بمهاجمة الحرس الوطني بواشنطن    إثراء" يستعد لإطلاق حفل "أقرأ" الختامي في نسخته العاشرة.. الجمعة    مُحافظ الطائف يستقبل مدير فرع وزارة الصحة بالمحافظة    نائب أمير المنطقة الشرقية يستقبل مدير عام فرع الرئاسة العامة للبحوث العلمية والإفتاء بالمنطقة ويدشّن وحدة المشاركة التطوعية    أمير الشرقية يستقبل مدير عام فرع الرئاسة العامة للبحوث العلمية والإفتاء بالمنطقة ورئيس وأعضاء جمعية الرحمة الطبية    زراعة عسير: ضبط 760 كجم من الأسماك والدواجن غير الصالحة للاستهلاك الآدمي    النفط يستقر وسط مخاوف "جيوسياسية على الإمدادات"    الذهب يتراجع مع صعود عوائد السندات الأميركية    خلال معرض الطيران العام 2025 الوعلان القابضة تستعرض خدماتها المتنوعة في قطاعي الطيران والسيارات    القضاء على سبعة مسلحين شمال غرب باكستان    ضميرية عسيرية حول المملكة وباكستان    الطلاق الصامت.. انفصال بلا أوراق يُربك الأسرة    المملكة تقفز بنسبة المناطق البحرية المحمية إلى 61.1 %    أمير الرياض يشهد توقيع اتفاقيات بين "الموارد البشرية" وعدد من الجهات    المملكة الثالث عالمياً في نماذج الذكاء الاصطناعي    ألقى بابنته من الشرفة لرفضها فسخ خطبتها    «الجوازات»: الهوية الرقمية لا تستخدم في عبور منفذ سلوى    5.4 مليار ريال يديرها المستشار الآلي    الهلال يطلب إعفاء بونو من كأس أفريقيا.. ونونيز يريد الرحيل    مجرد (شو) !!    قبل عرضها على سبيستون    أضخم منصة عالمية للاحتفاء بالحرف اليدوية.. «الثقافية» تمثل السعودية بمعرض أرتيجانو آن فييرا    اندثار المواهب والحلول لإعادة اكتشافها وصقلها    القيادة تهنئ رئيس الإمارات بذكرى اليوم الوطني لبلاده    القيادة تعزي رئيس سريلانكا في ضحايا إعصار ديتواه الذي ضرب بلاده    خطوة روسية – أمريكية نحو حل سلمي للأزمة الأوكرانية    أكد أن مزاعم «الدعم السريع» وهدنته مناورة سياسة.. الجيش السوداني يصد هجوماً على «بابنوسة»    الحوثي يعدم المدنيين بتهم «مزيفة»    جودة النظام الصحي تسبق مهارة الطبيب    شبه القراءة بالأكل    الجيش الألماني يعلن تعرّض شحنة ذخيرة للسرقة    في جزيرة شورى وزيرا الرياضة والإعلام والإعلاميون.. أمرهم شورى!    ألونسو: أهمية مبابي أكبر من أهدافه    ضبط 21134 مخالفًا للإقامة والعمل وأمن الحدود    نور الرياض    منازل نجران.. تراث أصيل    السيتي ينجو من انتفاضة فولهام ويقلص الفارق مع آرسنال إلى نقطتين فقط    3 ملايين مخطوطة تتصدر حديث ثلوثية الحميد    انطلاق فعاليات القمة الخامسة لرعاية العيون بمشاركة نخبة من الكادر الطبي    السفراء الجدد يؤدون القسم أمام ولي العهد    رجل الدولة والعلم والخلق الدكتور محمد العقلاء    "الشؤون الإسلامية" تنفذ أكثر من 47 ألف جولة رقابية في المدينة المنورة    القيادة تعزي الرئيس الإندونيسي في ضحايا الفيضانات والانزلاقات الأرضية ببلاده    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.