إحباط تهريب (114,000) قرص خاضع لتنظيم التداول الطبي في جازان    أول فعالية بولو على كورنيش الدوحة تدشن انطلاقتها بمنافسات عالمية وظهور تاريخي لأول لاعبي بولو قطريين    الاتحاد السعودي للتسلق والهايكنج ينفّذ فعالية هايكنج اليوم الدولي للجبال بالباحة    أمير حائل ونائبه يعزيان أسرة آل عاطف في وفاة "أبو مرداع"    غداً .. الرياض تشهد ختام الأسبوع الأول من بطولة الجائزة الكبرى "قفز السعودية"    فيزيائي سعودي يقرأ المقامات الموسيقية من منظور علمي    الأردن يكسب العراق ويواجه الأخضر السعودي في نصف نهائي كأس العرب    ورشة عمل في كتاب جدة حول فلسفة التربية    تصوير الحوادث ظاهرة سلبية ومخالفة تستوجب الغرامة 1000 ريال    رئيس دولة إريتريا يصل إلى جدة    تعليم جازان يشارك في فعاليات اليوم العالمي لحقوق الإنسان 2025 بركن توعوي في الراشد    آل ناشع يرعى فعاليات اليوم العالمي للأشخاص ذوي الإعاقة    السلامة الرقمية في غرف الأخبار بفرع هيئة الصحفيين بالمدينة    الطائف تحتضن حدثًا يسرع الابتكار ويعزز بيئة ريادية تقنيه واعدة في CIT3    جلسة حوارية حول اليوم العالمي لمناهضة العنف ضد المرأة نظمتها جمعية سنابل الخير والعطاء بعسير    تحت شعار "جدة تقرأ" هيئة الأدب والنشر والترجمة تُطلِق معرض جدة للكتاب 2025    الذهب يستقر عند أعلى مستوى في سبعة أسابيع، والفضة تقترب من ذروة قياسية    رينارد: الفوز جاء بروح الفريق    "الداخلية" تستحضر قيمة المكان والذاكرة الوطنية عبر "قصر سلوى"    الجوازات تستعرض إصدارات وثائق السفر التاريخية في واحة الأمن بمهرجان الملك عبدالعزيز للإبل ال (10)    الصعيدي يفتح دفاتر الإذاعة في أمسية بقصيرية الكتاب    إمام الحرم: بعض أدوات التواصل الاجتماعي تُغرق في السطحيات وتُفسد الذوق    إمام وخطيب المسجد النبوي: رحمة الله تسع العاصي والجاهل والمنكر    الأخضر على أعتاب رقم قياسي في كأس العرب    تألق كبير لثنائية كنو والدوسري في كأس العرب    أمير منطقة جازان يشرّف الأمسية الشعرية للشاعر حسن أبوعَلة    امطار وضباب على اجزاء من منطقة الرياض والشرقية والشمالية    "الغطاء النباتي" يُطلق مبادرة نثر البذور في المزارع الخاصة بحائل .    منافسات قوية في اليوم الثالث من العرض الدولي الثامن لجمال الخيل العربية    كريم بنزيما يُلمّح: العودة للمنتخب الفرنسي ليست مستحيلة!    من أمريكا إلى السعودية..خطة تيباس لإقامة مباراة تاريخية خارج الأراضي الإسبانية    الصين تطلق أقمار صناعية جديدة للإنترنت    محافظ جدة يطّلع على مبادرات جمعية "ابتسم"    بوتين يعلن الاستيلاء على بلدة سيفيرسك الأوكرانية    المملكة ترتقي بجهود التنمية المستدامة عبر 45 اتفاقية ومذكرة تفاهم    ترامب: سنشارك في اجتماع أوكرانيا بشرط وجود فرصة جيدة لإحراز تقدم    الجريمة والعنف والهجرة تتصدر مخاوف العالم في 2025    أسبوع الفرص والمخاطر للسوق السعودي    المرونة والثقة تحرك القطاع الخاص خلال 10 سنوات    مدينون للمرأة بحياتنا كلها    نائب أمير الرياض يعزي أبناء علي بن عبدالرحمن البرغش في وفاة والدهم    نائب أمير جازان يستقبل الدكتور الملا    روضة إكرام تختتم دورتها النسائية المتخصصة بالأحكام الشرعية لإجراءات الجنائز    طرق ذكية لاستخدام ChatGPT    أمير المدينة المنورة يستقبل تنفيذي حقوق الإنسان في منظمة التعاون الإسلامي    مستشفى الملك فهد الجامعي يعزّز التأهيل السمعي للبالغين    «طبية الداخلية» تقيم ورشتي عمل حول الرعاية الصحية    وسط ضغوط الحرب الأوكرانية.. موسكو تنفي تجنيد إيرانيين وتهاجم أوروبا    زواج يوسف    القيادة تعزّي ملك المغرب في ضحايا انهيار مبنيين متجاورين في مدينة فاس    غرفة إسكندراني تعج بالمحبين    أسفرت عن استشهاد 386 فلسطينيًا.. 738 خرقاً لوقف النار من قوات الاحتلال    ترفض الإجراءات الأحادية للمجلس الانتقالي الجنوبي.. السعودية تكثف مساعيها لتهدئة حضرموت    دراسة تكشف دور «الحب» في الحماية من السمنة    استئصال البروستاتا بتقنية الهوليب لمريض سبعيني في الخبر دون شق جراحي    ضمن المشاريع الإستراتيجية لتعزيز الجاهزية القتالية للقوات الملكية.. ولي العهد يرعى حفل افتتاح مرافق قاعدة الملك سلمان الجوية    طيور مائية    ولي العهد يفتتح مرافق قاعدة الملك سلمان الجوية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.