"ليدار للاستثمار" تختتم مشاركتها في سيتي سكيب 2025 بالرياض بإبرام تحالفات استراتيجية لتعزيز التطوير العمراني بالمملكة    اجتماعات جنيف: محاولات لتهدئة مخاوف خطة أمريكا    وصول الطائرة السعودية ال74 لإغاثة الشعب الفلسطيني في غزة    إيزي يعزز صدارة أرسنال للدوري الإنجليزي برباعية في توتنهام    ختام كأس البادل للنخبة والدوري مطلع الشهر القادم    مدير عام فرع وزارة البيئة والمياه والزراعة بجازان المهندس أحمد بن محمد ال مجثل يلتقي بموظفي الفرع    السعودية قائد عالمي في مجال الأصول الحقيقية الرمزية    UNIDO: السعودية أنموذجا لتحقيق صناعة مستدامة    وزير الخارجية: نواصل العمل مع G20 لتعزيز منظومة اقتصادية أكثر شمولا    رالي السعودية يُشعل منافسات الجولة الأخيرة ل(WRC) في أصعب تضاريس الموسم    تعادل مزعج    تحت رعاية ولي العهد .. وزير العدل يفتتح المؤتمر العدلي الدولي الثاني    الإعلام الإيطالي ينبهر بالزعيم: الهلال لا يعرف السقوط تحت قيادة إنزاغي    فريق طبي بمستشفى جازان العام ينجح في علاج حديث ولادة يعاني من تشوّه خلقي رئوي كبير    أمير جازان يطّلع على برامج ومبادرات جمعية التغذية العلاجية بالمنطقة    وزير العدل: نعمل على انتقال البورصة العقارية إلى هيئة العقار    السعودية لا تتحرك بوصفها دولة تبحث عن مكاسب آنية بل قوة تحمل رؤية طويلة الأمد    مستشفيات د. سليمان فقيه ضمن أفضل المستشفيات المتخصصة في الشرق الأوسط لعام 2026 بحسب تصنيف نيوزويك وستاتيستا    أمير تبوك يطلع على تقرير فرع وزارة الشؤون الإسلامية بالمنطقة    رؤية عابرة للحدود تعيد رسم خريطة الشرق الأوسط    نيابةً عن ولي العهد.. وزير الخارجية يشارك في جلسة اليوم الثاني لقمة مجموعة العشرين    السيولة السعودية ترتفع 7.8% إلى 3.2 تريليون ريال    نائب أمير حائل يستقبل نائب الرئيس التنفيذي للمؤسسة الخيرية لرعاية الأيتام "إخاء"    القصيم: فرع الاسلامية يحصل على شهادة الامتثال الاسعافي    أمير نجران يستقبل القنصل العام لجمهورية فرنسا    أمير الرياض يستقبل مدير عام السجون المكلف    قنصل عام فرنسا بجدة يستضيف خريجي الجامعات الفرنسية في أمسية مميزة ب«دار فرنسا»    محمية الأمير محمد بن سلمان الملكية ترصد أول ظهور للنسر الأبيض الذيل في السعودية منذ 20 عاما    أكثر من 100 عمل بمعرض الفن الإسلامي    افتتاح متحف البحر الأحمر بجدة التاريخية في 6 ديسمبر    بن حفيظ افتتح موسم شتاء مرات السادس.. ويستمر للجمعة القادمة    روبن نيفيز.. سيد الجزائيات وحاسم الهلال في اللحظات الحرجة    دوريات الأفواج الأمنية بمنطقة عسير تقبض على شخص لترويجه (23) كيلو جرامًا من نبات القات المخدر    دكتورة سعودية ضمن القادة العالميين المؤثرين    الداخلية: إهمال الطفل يعرضك للمساءلة القانونية    العقيل يحتفل بعقد قران عبدالله    عريس يشارك فرحته مع المحتاجين    منديل كشافة شباب مكة على صدور المديرس وهجاد وعمر    ضمن فعاليات موسم التشجير الوطني.. «الري» تستهدف زراعة 2 مليون شجرة    وزير الدفاع الهولندي: تعليق عمليات مطار أيندهوفن بعد رصد طائرات مسيرة    محكمة حوثية تعدم 17 شخصاً في صنعاء    غارات إسرائيلية على غزة.. خطط أمريكية ل«المنطقة الخضراء»    «واتساب» تتيح إنهاء صلاحية الرسائل تلقائياً    أحمد أمين يصور«النص 2» مطلع ديسمبر    «وسم الثقافي» يكرم الشاعر أبو زيد    الإسكندراني يستعرض تاريخ الأغنية السعودية    هنأت الرئيس اللبناني بذكرى استقلال بلاده.. القيادة تعزي ملك البحرين في وفاة إبراهيم بن حمد    القيادة تعزي ملك مملكة البحرين في وفاة سمو الشيخ إبراهيم بن حمد بن عبدالله آل خليفة    ملصقات العقوبات في مرافق الصحة.. مخالفة    السجائر الإلكترونية تحتوي على جراثيم خطرة    الأحمدي يكتب..جماهير الوحدة تُعيد ماضيها!    افتتاح جامع المجدوعي بالعاصمة المقدسة    كتاب التوحد في الوطن العربي.. قراءة علمية للواقع ورؤية للمستقبل    افتتاح جامع المجدوعي بالعاصمة المقدسة    الشيخ صلاح البدير: الموت محتوم والتوبة باب مفتوح لا يغلق    الشيخ فيصل غزاوي: الدنيا دار اختبار والصبر طريق النصر والفرج    العبيكان رجل يصنع أثره بيده    استقبل وزير الحج ونائبه.. المفتي: القيادة حريصة على تيسير النسك لقاصدي الحرمين    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.