ترامب: سيتم إغلاق المجال الجوي فوق فنزويلا ومحيطها بالكامل    الفرنسي"سيباستيان أوجيه" يخطف لقب بطولة العالم للراليات 2025″ رالي السعودية"    بحضور الأمير فهد بن جلوي.. إيقاد شعلة أولمبياد ميلانو كورتينا 2026    تشابي ألونسو يرفض التشكيك في وحدة لاعبي ريال مدريد    بيش يعتلي صدارة دوري الدرجة الثالثة بعد فوزه على الاعتماد بهدفين دون رد    أمير حائل يدشن مستشفى حائل العام الجديد غداً الأحد ب 499 مليون ريال    سعوديون وصينيون يقدمون دورة فهم الصين    نادي الطيران السعودي يحقق إنجازا تاريخيا ويكسر رقما قياسيا عالميا في غينيس    دوريات الأفواج الأمنية بمنطقة عسير تُحبط تهريب ( 94) كيلو جرامًا من نبات القات المخدر    شرطة الطائف : القبض على 13 مقيمًا لارتكابهم جرائم سرقة مواشٍ    تعليم عسير يعتمد التوقيت الزمني الجديد لمدارس قطاع تهامة    مودي يرسم رؤية هندية تكنولوجية بست مبادرات عالمية في مجموعة العشرين    مكتب التربية العربي لدول الخليج ينضم إلى اللجنة التوجيهية العليا للتعليم 2030 التابعة لليونسكو    "صحة روح" تختتم برنامج الفحص المبكر في مركز الحقو    مدير إقليمي وافد يعلن إسلامه متأثرا بأخلاق المجتمع السعودي والقيم الإسلامية    بلدية العمار تنهي تطوير «بوابة القصيم الجنوبية»    80 ألف زائر لكأس نادي الصقور 2025 بالشرقية    من الشرق إلى الغرب واثق الخطى يمشي.. «محمد»    التجييش الناعم والخطر الصامت    إقبال لتوثيق ملكية الصقور في منافسات 2025 بالخبر    إنزاغي يختار أجانب الهلال أمام الفتح    كيسيه يتغنى بجماعية الأهلي أمام القادسية    الأهلي يُحافظ على ميريح ديميرال    39 نوعًا من النباتات المحلية تزدهر في بيئات الحدود الشمالية    ضبط (21134) مخالفاً لأنظمة الإقامة والعمل وأمن الحدود خلال أسبوع    هورايزون مصر تطلق مشروع "رويال سعيد تاورز" بالقاهرة الجديدة        أمير منطقة جازان يقدم واجب العزاء لأسرة المحنشي    ترامب يعلن "إلغاء" كل وثيقة موقّعة بقلم آلي خلال رئاسة بايدن    الملك وولي العهد يعزيان رئيس الصين في ضحايا حريق مجمع سكني بهونغ كونغ    حاضنة مأمني الإبداعية توقع اتفاقية تعاون مع جمعية "معًا" لإطلاق نادي إعلامي واحتضان الفرق التطوعية    نادي ثَقَات الثقافي يُكرّم صحيفة الرأي الإلكترونية    بلدية أبوعريش وجمعية أثر تنفّذان مبادرة لتطوير السلامة المرورية وتحسين المشهد الحضري    أمانة جازان تنفّذ مبادرة للتشجير ضمن حملة "تطوّعك يبني مستقبل" لتعزيز جودة الحياة    الشيخ أسامة خياط يدعو إلى الأخوّة واجتناب الإيذاء ولزوم القول الحسن    الشيخ خالد المهنا يبين منزلة الصبر وفضله في حياة المؤمن    إيلارا... منصة عربية تحتفي بإبداعات الشباب وتطلق ست فئات للمنافسة    نائب أمير حائل يرفع شكره و امتنانه للقيادة    إجازة الخريف تسجل أسعارا فلكية للفنادق والطيران    الرياض تستضيف المؤتمر الدولي للتعليم والابتكار في المتاحف    جازان تودع شاعرها المدخلي    مقاربة أمريكية إسرائيلية لتفادي الحرب المباشرة مع إيران    الأمين العام لمجلس الشورى يرفع الشكر للقيادة بمناسبة تمديد خدمته أمينًا عامًا للمجلس    هيئة تنظيم الإعلام تحيل 6 أشخاص إلى النيابة العامة بسبب نشر محتوى يؤجج الرأي العام    "التخصصي" يستضيف قمّة التعاون في الجراحة الروبوتية بالرياض    علماء صينيون يطورون لسانا اصطناعيا لقياس مستوى الطعم الحار    استعرضا عدداً من المبادرات والمشروعات التطويرية.. أمير المدينة والربيعة يناقشان الارتقاء بتجربة الحجاج    عبر منظومة خدمات لضيوف الرحمن.. الحج: 13.9 مليون مرة أداء للعمرة خلال جمادى الأولى    تشمل خمس قرى وتستمر لعدة أيام.. إسرائيل تطلق عملية عسكرية واسعة بالضفة الغربية    وسط تحذيرات إسرائيلية من تصعيد محتمل.. اتفاق لترسيم الحدود البحرية بين لبنان وقبرص    وسط خلافات مستمرة حول بنود حساسة.. الكرملين يؤكد استلام النسخة الجديدة من «خطة السلام»    خلال المؤتمر العالمي ال48 في جنيف.. السعودية تحرز 18 جائزة دولية عن تميز مستشفياتها    سلالة إنفلونزا جديدة تجتاح أوروبا    الباحة تقود الارتفاع الربعي للعقار    إتاحة التنزه بمحمية الطوقي    أمير تبوك يستقبل القنصل العام لجمهورية الفلبين    خالد بن سلمان يرأس وفد المملكة باجتماع مجلس الدفاع المشترك.. تعزيز التعاون العسكري والدفاعي بين دول التعاون    موسكو تطالب بجدول زمني لانسحاب الاحتلال    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.