وزير الصناعة والثروة المعدنية في لقاء بهيئة الصحفيين السعوديين بمكة    خام برنت يصعد 1.3% ويصل إلى 75.17 دولار للبرميل    مدرب فيرونا يطالب لاعبيه ببذل قصارى جهدهم للفوز على إنترميلان    الأهلي يتغلّب على الفيحاء بهدف في دوري روشن للمحترفين    نيمار: فكرت بالاعتزال بعد إصابتي في الرباط الصليبي    قبضة الخليج تبحث عن زعامة القارة الآسيوية    6 فرق تتنافس على لقب بطل «نهائي الرياض»    القبض على (4) مخالفين في عسير لتهريبهم (80) كجم "قات"    وفد طلابي من جامعة الملك خالد يزور جمعية الأمل للإعاقة السمعية    أمير المنطقة الشرقية يرعى الأحد ملتقى الممارسات الوقفية 2024    بمشاركة 25 دولة و 500 حرفي.. افتتاح الأسبوع السعودي الدولي للحِرف اليدوية بالرياض غدا    مدرب الفيحاء يشتكي من حكم مباراة الأهلي    استقالة مارتينو مدرب إنتر ميامي بعد توديع تصفيات الدوري الأمريكي    بحضور وزير الثقافة.. «روائع الأوركسترا السعودية» تتألق في طوكيو    أوكرانيا تطلب أنظمة حديثة للدفاع الجوي    محافظ عنيزة المكلف يزور الوحدة السكنية الجاهزة    أمانة الشرقية تقيم ملتقى تعزيز الامتثال والشراكة بين القطاع الحكومي والخاص    رحلة ألف عام: متحف عالم التمور يعيد إحياء تاريخ النخيل في التراث العربي    الهلال يفقد خدمات مالكوم امام الخليج    منتدى المحتوى المحلي يختتم أعمال اليوم الثاني بتوقيع 19 اتفاقية وإطلاق 5 برامج    «الصحة الفلسطينية» : جميع مستشفيات غزة ستتوقف عن العمل    اعتماد معاهدة الرياض لقانون التصاميم    «طرد مشبوه» يثير الفزع في أحد أكبر مطارات بريطانيا    فيتنامي أسلم «عن بُعد» وأصبح ضيفاً على المليك لأداء العمرة    هل يعاقب الكونغرس الأمريكي «الجنائية الدولية»؟    شقيقة صالح كامل.. زوجة الوزير يماني في ذمة الله    «الأرصاد»: أمطار غزيرة على منطقة مكة    «الزكاة والضريبة والجمارك» تُحبط 5 محاولات لتهريب أكثر من 313 ألف حبة كبتاجون في منفذ الحديثة    الرعاية الصحية السعودية.. بُعد إنساني يتخطى الحدود    فريق صناع التميز التطوعي ٢٠٣٠ يشارك في جناح جمعية التوعية بأضرار المخدرات    الكشافة تعقد دراسة لمساعدي مفوضي تنمية المراحل    الملافظ سعد والسعادة كرم    "فيصل الخيرية" تدعم الوعي المالي للأطفال    الرياض تختتم ورشتي عمل الترجمة الأدبية    رواء الجصاني يلتقط سيرة عراقيين من ذاكرة «براغ»    «السقوط المفاجئ»    حقن التنحيف ضارة أم نافعة.. الجواب لدى الأطباء؟    «استخدام النقل العام».. اقتصاد واستدامة    إجراءات الحدود توتر عمل «شينغن» التنقل الحر    «بازار المنجّمين»؟!    مسجد الفتح.. استحضار دخول البيت العتيق    الثقافة البيئية والتنمية المستدامة    عدسة ريم الفيصل تنصت لنا    المخرجة هند الفهاد: رائدة سعودية في عالم السينما    تصرفات تؤخر مشي الطفل يجب الحذر منها    فعل لا رد فعل    ترمب المنتصر الكبير    وزير الدفاع يستعرض علاقات التعاون مع وزير الدولة بمكتب رئيس وزراء السويد    إنعاش الحياة وإنعاش الموت..!    رئيس مجلس أمناء جامعة الأمير سلطان يوجه باعتماد الجامعة إجازة شهر رمضان للطلبة للثلاثة الأعوام القادمة    إطلاق 26 كائنًا مهددًا بالانقراض في متنزه السودة    محمية الأمير محمد بن سلمان الملكية تكتشف نوعاً جديداً من الخفافيش في السعودية    "التعاون الإسلامي" ترحّب باعتماد الجمعية العامة للأمم المتحدة التعاون معها    استضافة 25 معتمراً ماليزياً في المدينة.. وصول الدفعة الأولى من ضيوف برنامج خادم الحرمين للعمرة    أمير الرياض يرأس اجتماع المحافظين ومسؤولي الإمارة    أمير الحدود الشمالية يفتتح مركز الدعم والإسناد للدفاع المدني بمحافظة طريف    أمير منطقة تبوك يستقبل سفير جمهورية أوزبكستان لدى المملكة    سموه التقى حاكم ولاية إنديانا الأمريكية.. وزير الدفاع ووزير القوات المسلحة الفرنسية يبحثان آفاق التعاون والمستجدات    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.