هيئة التشاور والمصالحة اليمنية ترحب بإعلان حل "الانتقالي"    مدرب كوت ديفوار: منتخب مصر الحالي يشبه نسخة 2006    بدأ العد التنازلي.. (100) يوم على انطلاق جائزة السعودية الكبرى    أمير منطقة جازان يرعى حفل فعاليات شاطئ "جيدانة"    رئيس بلدية محافظة الدرب يتفقد مشروع السوق الشعبي    وزير الداخلية يؤدي صلاة الميت على معالي الفريق أول سعيد بن عبدالله القحطاني    شاطئ السهي يواصل فعالياته ضمن فعاليات مهرجان جازان 2026 في أجواء بحرية نابضة بالحياة    الأسهم العالمية ترتفع قبيل صدور تقرير الوظائف الأمريكي وقرار الرسوم الجمركية    النفط يرتفع وسط مخاوف بشأن اضطرابات الإمدادات في فنزويلا وإيران    الدوسري: سورة «ق» ترسّخ الإيمان بالبعث وتوقظ القلوب الغافلة    النائب العام يزور «هذه جازان» ويطّلع على مزايا محافظات المنطقة ضمن مهرجان جازان 2026    انطلق من قرى الحد الجنوبي.. 500 أسرة تستفيد من مشروع سقيا جازان باقي الأثر    أمانة تبوك تحقق المركز الأول على مستوى القطاع البلدي في مسار إكرام    الهلال الاحمر السعودي يتلقى 16478 بلاغاً في منطقة نجران خلال عام 2025م    الزهراني يحقق إنجازًا جديدًا بحصوله على شهادة الإدارة الهندسية    "وقاء تبوك" ينفذ ورشة عمل عن تقنيات أخذ العينات النباتية    نادي ثقات الثقافي بالشراكة مع الشريك الأدبي يستضيف الرحالة عاتق الشريف في أمسية أدبيات الترحال    وزير الداخلية ينعى الفريق أول سعيد القحطاني    مدغشقر تشدد الإجراءات الصحية في القطاع السياحي بعد تسجيل إصابات بجدري القرود    فرصة لهطول أمطار رعدية على معظم مناطق المملكة    أمير منطقة الجوف يرعى الحفل الختامي لأعمال المكتب الاستراتيجي لتطوير المنطقة لعام 2025    روسيا تستهدف كييف بالصواريخ    ألونسو يشيد بالحسم وسيميوني يثمن الأداء التنافسي    فيصل بن مشعل يزور متحف العقيلات التاريخي في بريدة    النائب العام يرأس اللقاء الدوري لرؤساء نيابات المناطق    وفاة معالي الفريق أول سعيد بن عبدالله القحطاني    كريستيانو رونالدو يُعلق على خسارة النصر أمام القادسية    مدرب الريال: هدف "فالفيردي" غيّر مجرى المباراة.. ومدرب الأتلتي: لن ألوم فريقي و"كورتوا" حرمنا من العودة    تشكيل الاتحاد المتوقع أمام الخلود        موائد العزائم أنانية استنزاف الزوجات    أجزاء جديدة لأفلام مرتقبة في 2026    علامات القدم تكشف خطر الكوليسترول    رالي داكار السعودية.. الجنوب أفريقي لاتيغان يواصل الصدارة.. ودانية عقيل ثالث فئة "التشالنجر"    بيان مشترك بشأن الزيارة غير القانونية للمسؤول الإسرائيلي إلى منطقة "أرض الصومال"    الأسواق السعودية بين دعم الأساسيات وضغوط المتغيرات العالمية    الاتفاق يتغلب على النجمة برباعية في دوري روشن للمحترفين    حين يحتج العلم الذكي على جدوى الفلسفة..!    الشؤون الإسلامية في جازان تُنهي معالجة أكثر من (2000) تذكرة بلاغ عبر المركز الموحّد خلال عام 2025م    برعاية أمير الرياض.. مكتب التربية العربي لدول الخليج يحتفي بمرور 50 عامًا على تأسيسه    المتحدث الرسمي باسم قوات التحالف: عيدروس الزبيدي وآخرون هربوا باتجاه إقليم أرض الصومال    26 مليون زائر لمسجد قباء في عام    ألوية العمالقة تؤمن استقرار عدن    لنجاوي وقاضي يحتفلان بعقد قران فارس وهدى    تدهور حالة إيمان البحر بعد سنوات من الغياب    رفض واسع للمساس بسيادته وأمنه.. تحركات أفريقية – إسلامية تدعم وحدة الصومال    التقى سفير المملكة لدى ميانمار.. وزير الشؤون الإسلامية ومفتي البوسنة يبحثان تعزيز التعاون    وصول الطائرة السعودية ال 78 لإغاثة الفلسطينيين    محمد رمضان يخلع حذاءه على المسرح و«يتأفف»    النشاط الصباحي يقي كبار السن من الخرف    « الأبيض» يدمر صحة معظم البريطانيين    700 ألف شخص أقلعوا عن التدخين في السعودية    الحزام الأمني السعودي: قراءة في مفهوم إستراتيجية الأمن الوطني    وكيل وزارة الإعلام اليمني: سياسة أبوظبي ورطت الزبيدي    إحساس مواطن    نائب أمير تبوك يطلع على التقرير السنوي لفرع وزارة الموارد البشرية والتنمية الاجتماعية بالمنطقة    بالتعاون مع هيئة محمية الإمام تركي..«الفطرية»: إطلاق 124 كائناً مهدداً بالانقراض    القيادة تعزي ملك الأردن في وفاة رئيس الوزراء الأسبق    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.