أمير الشرقية: تلمس الخدمات من أولويات القيادة    أمير المدينة المنورة يؤكد حرص القيادة على تلبية احتياجات المواطنين وتعزيز جودة الحياة    عبدالعزيز بن سعد يبحث تنمية السياحة    البنوك والتمويل العقاري (قبل/بعد) التوازن هندسة سوقية    باريس تعتبر قانون تجريم الاستعمار الفرنسي في الجزائر منافيا لإرادة الحوار    القيادة تهنئ رئيس المجلس الرئاسي الليبي بذكرى استقلال بلاده    الجزائر تقسو على السودان المنقوص بثلاثية في كأس الأمم الأفريقية 2025    النصر يستعرض بخماسية في شباك الزوراء ب "أبطال آسيا الثاني"    القبض على (3) باكستانيين في جدة لترويجهم (3) كجم "حشيش"    مدير تعليم الطائف يتفقد مدارس شقصان وبسل ويقف على احتياجاتها التعليمية    هياط المناسبات الاجتماعية    جمعية الجنوب النسائية تعقد اجتماع جمعيتها العمومية    مساعدات إنسانيّة سعودية جديدة تعبر منفذ رفح متجهة إلى غزة    وزير الداخلية يواسي في وفاة الشيخ أحمد الخريصي    سفير المملكة في جيبوتي يسلّم درع سمو الوزير للتميّز للقحطاني    تركيا تعلن العثور على الصندوق الأسود لطائرة رئيس الأركان الليبي    مؤشر سوق الأسهم السعودية يغلق منخفضًا عند مستوى (10540.72) نقطة    أمانة القصيم تصادر 373 كيلو من المواد الغذائية الفاسدة خلال الربع الأخير للعام 2025م بمحافظة الرس    مُحافظ الطائف يتسلّم شهادة الآيزو العالمية لفرع وزارة الصحة بالطائف    بأمر الملك.. تقليد سفير الإمارات السابق وشاح المؤسس    30 مليار ريال مبيعات التجارة الإلكترونية في أكتوبر الماضي    كرسي اليونسكو لترجمة الثقافات يستضيف دورة تدريبية ومحاضرة حول حفظ التراث غير المادي    برعاية وزير الثقافة.. "مجمع الملك سلمان العالمي" و"التعاون الإسلامي" يحتفيان باليوم العالمي للغة العربية    "أفاتار: النار والرماد" يتصدر صالات السينما السعودية    موعد إصدار أول فوترة للرسوم على الأراضي البيضاء    فيصل بن بندر يستقبل رئيس وأعضاء مجلس إدارة جمعية "مكنون" لتحفيظ القرآن الكريم بالرياض    كلية الطب بجامعة الإمام عبد الرحمن بن فيصل تحتفي ب50 عامًا من العطاء في يوبيلها الذهبي    أكثر من 1,800,000 زيارة لتطبيق ديوان المظالم على الأجهزة الذكية    م. الحيدري: إلغاء "المقابل المالي" يعيد معادلة كلفة الصناعة السعودية    الجوازات تصدر 17.767 قرارا إداريا بحق مخالفين لأنظمة الإقامة والعمل وأمن الحدود    السعودية تدين الهجوم الذي استهدف أفراد من الشرطة الباكستانية بمنطقة كاراك    «قصاصات المطر»… الشعر بوصفه ذاكرة مفتوحة على التأمل    إدارة التغيير… حين يصبح الوعي مدخلًا للتحول    اندلاع حريق بموقع صناعي في تولا الروسية    أقر القواعد الموحدة لتمكين ذوي الإعاقة بالخليج.. مجلس الوزراء: الموافقة على قواعد ومعايير أسماء المرافق العامة    جمع 31 نوعاً من النباتات البرية المحلية.. السعودية تسجل رقماً قياساً في «غينيس» ب «مخزون البذور»    نائب أمير الشرقية يهنئ مدير تعليم الأحساء    الإدارة الذاتية: استمرار التوتر تهديد لاتفاق الشرع وعبدي.. ارتفاع قتلى قصف «قسد» في حلب    تحت رقابة دولية وإقليمية وسط استمرار المعارك.. الحكومة السودانية تطرح وقفاً شاملاً لإطلاق النار    نخبة آسيا.. بن زيما يقود الاتحاد لتجاوز ناساف    روح وريان    خربشات فكر    بين الكتب والخبز    الجولة 13 بدوري يلو.. الأنوار يستقبل الباطن والبكيرية يواجه العربي    فلكية جدة: النجوم أكثر لمعاناً في فصل الشتاء    مسجد القبلتين.. شاهد على التاريخ    «الشؤون الدينية» تعزز رسالة الحرمين    «فايزر» تعلن وفاة مريض بعد تلقيه دواء لعلاج سيولة الدم في تجربة    المنظار الأنفي.. تطور علاجي في استئصال الأورام    جدة تستضيف نهائيات دوري أبطال آسيا للنخبة 2026    الجولة 13 بدوري يلو.. الأنوار يستقبل الباطن والبكيرية يواجه العربي    كرات ثلج تحطم رقم Guinness    الضحك يعزز صحة القلب والمناعة    المشروبات الساخنة خطر صامت    نجاح أول عملية للعمود الفقري بتقنية OLIF    فلتعل التحية إجلالا وإكبارا لرجال الأمن البواسل    الكلام    إنفاذاً لأمر خادم الحرمين الشريفين.. وزير الدفاع يقلد قائد الجيش الباكستاني وسام الملك عبدالعزيز    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.