السعودية والمملكة المتحدة تطلقان شراكة دولية كبرى لدعم الأمن البحري اليمني    أمام مجلس حقوق الإنسان.. المملكة تدين الاعتداء الإسرائيلي على سيادة قطر    ولي العهد يستقبل أمين مجلس الأمن القومي الإيراني    مجلس الوزاء يوافق على عدة قرارات ويجدد الدعم لفلسطين وقطر وسوريا    جائزة العمل تواصل تحفيز القطاع الخاص وتعزيز بيئات العمل    إنجاز عالمي.. "برق" تتوج ب 3 جوائز من Visa خلال مؤتمر Money20/20    الإعلام في مهرجانات الإبل من صوت التراث إلى صناعة المستقبل    القيادة تهنئ رئيسة الولايات المتحدة المكسيكية بذكرى استقلال بلادها    وزارة الداخلية تطلق ختمًا خاصًا بمؤتمر "Money 20/20 الشرق الأوسط"    الوقوف في الأماكن غير المخصصة مخالفة مرورية تعطل انسيابية السير    سلمان بن سلطان يفتتح منتدى المدينة للتعليم    "طوّر مسيرتك المهنية" لمساعدي الأطباء وأخصائيي صحة الأسنان    مستشفى قوى الأمن بالدمام يحصل على المركز الأول في جائزة أداء الصحة بمسار الأمومة والطفولة    40 طبيبا يبحثون أحدث طرق علاج أمراض الدم بالمدينة    زين السعودية تستثمر في قطاع التأمين الرقمي مع شركةPrevensure العالمية    مرايا غامضة تظهر في مختلف المدن السعودية... ما الذي تعكسه؟    بيئة الرياض تتلف 3 أطنان من اللحوم غير الصالحة وتضبط 93 مخالفة في سوق البطحاء    "موسم الرياض" يشهد أضخم حدث لكرة القدم الأميركية بنظام العلم    النقل تفرض غرامات وحجز المركبات غير النظامية    محافظ الأحساء يكرّم مواطنًا تبرع بكليته لأخيه    الراجحي الخيرية تدعم مصابي التصلب المتعدد ب50 جهازاً طبياً    أمير القصيم يزور محافظة البدائع ويلتقي المواطنين ويطلع على مشاريع تنموية تفوق 100 مليون ريال    أعلنوا رفضهم للاعتداء على قطر.. قادة الدول العربية والإسلامية: ردع إسرائيل لحماية أمن واستقرار المنطقة    الحوثي يستهدف مطار رامون والنقب ب 4 مسيرات    صراع المناصب يهدد الاتفاق الأمني في ليبيا    سوريا.. ضبط شحنة أسلحة معدة للتهريب للخارج    السلوك العام.. صورة المجتمع    الأرصاد: حالة مطرية بمحافظات مكة حتى الجمعة    هل أدى فرض الرسوم على الأراضي إلى حل مشكلة السكن؟    2.3 % معدل التضخم    إطلاق مبادرة تصحيح أوضاع الصقور بالسعودية    يستعيد محفظته المفقودة بعد 51 سنة    «قدم مكسورة» تدخل تامر حسني المستشفى    ظل الماضي    الإسراف وإنفاق ما لا نملك    متقن    الوحدة يصعق الاتحاد في الوقت القاتل    في مستهل مشواره بدوري أبطال آسيا للنخبة.. الهلال يستضيف الدحيل القطري    من ينقذ فرسان مكة من العبث؟    الخرف الرقمي وأطفالنا    الفيصل رئيساً للاتحاد العربي    إنزاغي: سنواجه خصماً قوياً ومنظماً    الخرطوم تنتقد العقوبات الأميركية على مواطنين وكيانات سودانية    لبنان يوقف عملاء لإسرائيل ويفكك شبكة تهريب مخدرات    التحالف الإسلامي يطلق في العاصمة القُمريّة دورة تدريبية في محاربة غسل الأموال وتمويل الإرهاب    جامعة الملك سعود تُنظّم الندوة العالمية لدراسات تاريخ الجزيرة العربية    دراسة أسترالية: النظام الغذائي يحد من اضطرابات النوم والأمراض المزمنة    "سلطان الخيرية" تدعم "العربية" في قيرغيزستان    تضامن عربي إسلامي مع قطر.. دول الخليج تعزز آليات الدفاع والردع    التضخم الأمريكي أعلى من مستهدفات الفيدرالي    تكريس الجذور واستشراف للمستقبل    عزنا بطبعنا    أمير القصيم يطّلع على التقرير السنوي لأعمال فرع هيئة الأمر بالمعروف    «الشؤون الإسلامية» توقّع عقودًا لصيانة وتشغيل 1,392 مسجدًا وجامعًا خلال الربع الثالث لعام 2025م    رئيس الوزراء السوداني يغادر المدينة المنورة    نائب أمير تبوك يستقبل مدير عام فرع الرئاسة العامة لهيئة الأمر بالمعروف والنهي عن المنكر بالمنطقة    سفيرة المملكة لدى الولايات المتحدة تزور الملحقية العسكرية السعودية في واشنطن    المفتي يستعرض جهود وأعمال الدفاع المدني    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.