سوق الأسهم السعودية يغلق متراجعا وسط سيولة 3.5 مليارات ريال    هيئة التأمين تطلق 15 خدمة رقمية جديدة    أمير الرياض يطلع على المشاريع والخطط الإستراتيجية لهيئة المساحة الجيولوجية السعودية    وزير التجارة يوافق على قواعد المستفيد الحقيقي    البديوي: تصريحات المسؤولين الإيرانيين مغلوطة ومرفوضة    شراكة استراتيجية بين مجموعة روتانا للموسيقى و HONOR توثق لحظات لا تتكرر انطلاقا من جلسة شعبيات محمد عبده    5 محطات ركاب للقطار الكهربائي السريع بين الرياض والدوحة    نائب أمير المنطقة الشرقية يستقبل رئيس مجلس إدارة جمعية الذوق العام    انطلاق معرض جدة للكتاب 2025 الخميس المقبل    "العلا" تتوج عالميًا كأفضل مشروع سياحي    "إرث العقارية" تشارك بصفتها الراعي الماسي في مؤتمر سلاسل الإمداد 2025 وتعرض مشروع "مجمَّع سويفت اللوجستي"    "التحالف الإسلامي" يطلق برنامج الاستخبارات التكتيكية بالرياض    ولي العهد وأمير قطر يرأسان مجلس التنسيق السعودي القطري    تجمع الرياض الصحي الأول يشارك في تفعيل النسخة الثانية من مبادرة "10KSA"    الأفواج الأمنية بجازان تقبض على شخص لترويجه 11 كيلو جرامًا من نبات القات المخدر    "التخصصي" يتوج بثلاث جوائز في مجال الخزينة وإدارة النقد بقطاع الرعاية الصحية    صلاح يهدد بالاستبعاد عن مواجهة انتر ميلان    الأهلي يتفق على تمديد عقد ميندي    خادم الحرمين الشريفين وولي العهد يهنئان الرئيس السوري بذكرى يوم التحرير    إحالة منشأة تجارية إلى النيابة العامة لتداول أجهزة طبية مخالفة للنظام    أمانة القصيم ترفع جاهزيتها لاستقبال الحالة المطرية المتوقعة    الصناعات الإيرانية حاضرة في معرض المنتجات العربية والعالمية بمكة    الجمعية السعودية لمرض ألزهايمر تحصد شهادة الاستثمار ذي الأثر الاجتماعي    4.8% نمو الاقتصاد السعودي خلال الربع الثالث من 2025    إصابة فلسطيني برصاص الاحتلال شمال مدينة القدس    عازم و تجمع عسير الصحي توقّعان مذكرة تفاهم لتنفيذ مشروع " خطوة "    ⁨الإسلام دين السلام لا إرهاب وعنف⁩    «أحياها» تشارك في ختام «دُرّة طلال» وتحتفي بتأهيل 25 مقدمة رعاية بالأحساء    ثلاث مدن سعودية تنضم إلى شبكة اليونسكو العالمية لمدن التعلّم    تايلاند تشن غارات جوية ضد أهداف للجيش الكمبودي    التدخل العاجل ينقذ 124 حالة بمستشفى أجياد    أمير نجران يطلع على سير العمل في قطاعات الأمن العام    «الدعم السريع» يقصف المدنيين في كردفان    أكد أن العملية على وشك الانتهاء.. المبعوث الأمريكي: اتفاق السلام في أوكرانيا في «الأمتار العشرة»    في الجولة الثالثة لكأس العرب 2025.. الأخضر يلاقي المغرب للحفاظ على الصدارة    للعام الخامس على التوالي.. يزيد الراجحي يتوج ببطولة السعودية تويوتا للراليات الصحراوية    ميسي يقود إنتر ميامي للقب الدوري الأمريكي    في معرض "أرتيجانو آن فييرا" بمدينة ميلانو.. «الثقافية» تعرف العالم بتاريخ وثقافة السعودية    اعتمد لجنة لتطوير الحوكمة.. «الألكسو» برئاسة السعودية: إنشاء المركز العربي لدعم المسار المهني    العزف على سيمفونية حياتك    نتائج المسح الصحي الوطني لعام 2025.. 95.7 % من البالغين لديهم تغطية ل«نفقات الرعاية»    لا تلوموني في هواها    حماس تشترط انتهاء الاحتلال لتسليم السلاح    آل الشيخ يطلق النسخة الثانية من مبادرة «ليلة العمر».. رسم بداية جديدة لشباب الوطن    «سار» تحصد جائزة أفضل مركز اتصال بقطاع السفر    هيئة «الشورى» تحيل تقارير ثلاث جامعات للمجلس    السمنة تسرع تراكم علامات الزهايمر    جامعة الطائف تكشف بدراسة علمية عن مؤشرات فسيولوجية جديدة للمها العربي في بيئته الطبيعية    تدابير الله كلها خير    زراعي عسير: أكثر من 6 ملايين ريال عائد اقتصادي للعمل التطوعي    الجوازات تضع شرطا للسفر لدول الخليج بالهوية الوطنية    إنه عمل غير صالح    نائب أمير الشرقية يطلع على أعمال فرع الرئاسة العامة لهيئة الأمر بالمعروف بالمنطقة    تتم عبر تصريح «نسك» للرجال والنساء.. تحديد زيارة الروضة الشريفة ب«مرة» سنوياً    المجلس العالمي لمخططي المدن والأقاليم يختتم أعماله.. ويعلن انضمام أمانة الرياض لعضوية المنظمة العالمية "ISOCARP"    تحت رعاية خادم الحرمين الشريفين.. "التخصصات الصحية" تحتفي ب 12,591 خريجًا من برامج البورد السعودي والأكاديمية الصحية 2025م    أمير منطقة جازان يؤدى واجب العزاء والمواساة لإبراهيم بن صالح هملان أحد أفراد الحماية (الأمن) في وفاة شقيقته    أمير منطقة تبوك يكرم المواطن فواز العنزي تقديرًا لموقفه الإنساني في تبرعه بكليته لابنة صديقه    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.