الأسهم الأوروبية تتجه لمكاسب أسبوعية بدعم البنوك    9 طلاب موهوبين من تعليم الطائف يتألقون في «إبداع 2026»    كتاب جدة يقيم ورشة لمهارات المقالة النقدية    تفاصيل رغبة مانشستر يونايتد في ضم روبن نيفيز    مُحافظ الطائف يستقبل وفدًا من أعضاء مجلس الشورى    الأمير سعود بن مشعل يزور «ونتر وندرلاند جدة»    اختتام دورة حكام التايكوندو "بومسي –مستجدين" بجدة    تعليم جازان يحتفي باليوم العالمي للغة العربية ٢٠٢٥    زانيتي: السعودية رائعة وستنظم مونديالا عظيماً    «زاتكا» تُحبط تهريب 187 ألف حبة كبتاجون بمطار الملك عبدالعزيز    المملكة ترحّب بقرار إلغاء العقوبات الأمريكية على سوريا    المعيقلي: ولاية الله أساس الطمأنينة والإيمان    الحذيفي: التقوى وحسن الخلق ميزان الكرامة عند الله    عسير في صدارة الوجهات السياحية الأسرع نموًا في الخليج العربي 2025    الين يتراجع بعد قرار المركزي الياباني برفع الفائدة    جامعة تبوك تحتفل بحصول جميع برامج البكالوريوس على ⁧‫الاعتماد البرامجي‬⁩ بنسبة 100%    ارتفاع أسعار النفط في ختام تعاملاته    مقتل سبعة أشخاص في تحطم طائرة خاصة في الولايات المتحدة    لولا يؤكد أنه سيستخدم حق النقض ضد قانون يخفض فترة سجن بولسونارو    «دوائر النور»    موسى المحياني: وضع الأخضر قبل المونديال مخيف والتحرك يبدأ الآن    السياح يوثقون مهرجان الإبل    قطرات للأنف لعلاج سرطان المخ    انتشار فيروس جدري القرود عالميًا    فيفا يصدر قراره في نتيجة مباراة المنتخبين السعودي والإماراتي بكأس العرب 2025        مهرجان الرياض للمسرح يتألق في ثالث أيامه بعروض مسرحية وحفل غنائي    بطولة "قفز السعودية".. عبدالرحمن الراجحي بطل شوط نقاط كأس العالم 2026    القبض على يمني في جازان لترويجه نبات القات المخدر    نابولي يثأر من ميلان ويتأهل لنهائي كأس السوبر الإيطالي بالسعودية    مزادات الأراضي تشتعل بصراع كبار التجار    إستراتيجية واشنطن في لبنان وسوريا بين الضغط على إسرائيل وسلاح حزب الله    تخريج 335 كفاءة وطنية ضمن برامج التدريب بمدينة الملك سعود الطبية    "القوات الخاصة للأمن والحماية" نموذجٌ متكامل لحفظ الأمن وحماية مكتسبات التنمية    أمير منطقة جازان يستقبل القنصل الهندي    أمير جازان يستقبل الفائز بالمركز الأول في مهرجان الأفلام السينمائية الطلابية    جمعية أرفى تحصد فضية جائزة "نواة 2025" للتميز الصحي بالمنطقة الشرقية    تعليم الطائف ينفّذ لقاءً تعريفيًا افتراضيًا بمنصة «قبول» لطلبة الصف الثالث الثانوي    أمير تبوك يستقبل رئيس المحكمة الإدارية بالمنطقة    محمية الأمير محمد بن سلمان الملكية تعيد توطين طائر الجمل بعد غياب 100 عام    أمير الشرقية يكرّم داعمي جمعية «أفق» لتنمية وتأهيل الفتيات    أمير القصيم يواسي خالد بن صالح الدباسي في وفاة زوجته وابنتيه    نعمة الذرية    في ذمة الله    البيطار يحتفل بزفاف مؤيد    القحطاني يحصل على الماجستير    ضبط أحزمة ناسفة وصواريخ.. تفكيك خلية تابعة ل«داعش» في إدلب    تصعيد عسكري في كردفان.. الجيش السوداني يستهدف مواقع ل«الدعم السريع»    سمو ولي العهد يعزّي ولي عهد دولة الكويت في وفاة الشيخ جابر مبارك صباح الناصر الصباح    أكد أنه امتداد لدعم القطاع الصناعي من ولي العهد.. الخريف: القرار يعزز التنمية الصناعية ويطور القدرات الوطنية    تصاعد الاستيطان الإسرائيلي يثير إدانات دولية.. واشنطن تؤكد رفض ضم الضفة الغربية    حرقة القدم مؤشر على التهاب الأعصاب    علماء روس يطورون طريقة جديدة لتنقية المياه    البكري تحذر من الإفراط في الاعتماد على الذكاء الاصطناعي    تصعيد ميداني ومواقف دولية تحذر من الضم والاستيطان    أمير تبوك يطلع على نسب الإنجاز في المشروعات التي تنفذها أمانة المنطقة    الهيئة العامة للنقل وجمعية الذوق العام تطلقان مبادرة "مشوارك صح"    «المطوف الرقمي».. خدمات ذكية لتيسير أداء المناسك    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.