وصول الطائرة الإغاثية السعودية التاسعة لمساعدة الشعب السوري إلى مطار دمشق الدولي    السودان.. أكبر أزمة نزوح أطفال في العالم    نادي جازان الأدبي يكرم الزميلة خلود النبهان    وكيل "الشؤون الإسلامية" للمشروعات والصيانة: تدشين الأدلة الفنية للمساجد إنجاز نوعي برؤية شاملة ومعايير عالمية    طلبة منطقة "تعليم الرياض" يعودون غداً لمدارسهم لاستكمال الفصل الدراسي الثاني    بندر بن سعود ل"الرياض": الفائزون بجائزة الملك فيصل سفراء المملكة عالميًا    أكثر من 300 جلسة رئيسية في النسخة الثالثة من قمة المليار متابع    «طائرة كوريا».. «الأسودان» توقفا قبل 4 دقائق من التحطم !    «الضباب» يحوّل رحلة ليفربول إلى كابوس    مؤشرات الأسهم الأمريكية تغلق على تراجع    استمرار هطول الأمطار على بعض مناطق المملكة    خالد عبدالرحمن ل«عكاظ»: جمعنا أكثر من 10 قصائد وننوي طرح ألبومين سامريات    أمريكا وبريطانيا توسعان عقوبات كاسحة على صناعة النفط الروسية    القائد الذي ألهمنا وأعاد لنا الثقة بأنفسنا    "النقد الدولي" يتوقع استقرار النمو العالمي في 2025    البرلمان الألماني يبحث الأربعاء تفشي الحمى القلاعية في البلاد    الإعاقة.. في عيون الوطن    ابعد عن الشر وغني له    فريق جامعة الملك عبدالعزيز يتوّج بلقب بطولة كرة السلة للجامعات    أمين الطائف هدفنا بالأمانة الانتقال بالمشاركة المجتمعية للاحترافية    العروبة يتعاقد مع العراقي عدنان حمد لقيادة الفريق فنيّاً    هاو لم يفقد الأمل في بقاء دوبرافكا مع نيوكاسل    مهاجم الأهلي: قدمنا مباراة كبيرة واستحقينا الفوز على الشباب    ما بين الجمال والأذية.. العدار تزهر بألوانها الوردية    رئيس مصر: بلادنا تعاني من حالة فقر مائي    "لوريل ريفر"، "سييرا ليون"، و"رومانتيك واريور" مرشحون لشرف الفوز بلقب السباق الأغلى في العالم    ضبط يمني في مكة لترويجه (11,968) قرصًا خاضعًا لتنظيم التداول الطبي    «الغذاء والدواء» تحذّر من منتج لحم بقري لتلوثه ببكتيريا اللستيريا    بالشرقية .. جمعية الذوق العام تنظم مسيرة "اسلم وسلّم"    ملتقى الشعر السادس بجازان يختتم فعالياته ب 3 أمسيات شعرية    الشيخ طلال خواجي يحتفل بزواج ابن أخيه النقيب عز    «حرس الحدود» بعسير ينقذ طفلاً من الغرق أثناء ممارسة السباحة    أنشيلوتي يبدي إعجابه بالجماهير.. ومدرب مايوركا يعترف: واجهنا فريقًا كبيرًا    مزايا جديدة للمستوردين والمصدرين في "المشغل الاقتصادي السعودي المعتمد"    جوزيف عون يرسم خارطة سياسية جديدة للبنان    خطيب المسجد النبوي: تجنبوا الأحاديث الموضوعة والبدع المتعلقة بشهر رجب    إحباط محاولتي تهريب 6 كلجم «شبو» مخبأة في بطاريات وصناديق    محافظ الطائف يستأنف جولاته ل«السيل والعطيف» ويطّلع على «التنموي والميقات»    «عباقرة التوحد»..    الصداع مؤشر لحالات مرضية متعددة    5 طرق سهلة لحرق دهون البطن في الشتاء    ماذا بعد دورة الخليج؟    سوريا بعد الحرب: سبع خطوات نحو السلام والاستقرار    الحمار في السياسة والرياضة؟!    أسرار الجهاز الهضمي    الرياض تستضيف الاجتماع الوزاري الدولي الرابع للوزراء المعنيين بشؤون التعدين    المقدس البشري    جانب مظلم للعمل الرقمي يربط الموظف بعمله باستمرار    أفضل الوجبات الصحية في 2025    مركز إكثار وصون النمر العربي في العُلا يحصل على اعتماد دولي    مغادرة الطائرة الإغاثية السعودية ال8 لمساعدة الشعب السوري    إطلاق كائنات مهددة بالانقراض في محمية الإمام تركي بن عبدالله    نائب أمير تبوك يطلع على مؤشرات أداء الخدمات الصحية    أمير القصيم يتسلم التقرير الختامي لفعالية "أطايب الرس"    ولي العهد عنوان المجد    أمير المدينة يرعى المسابقة القرآنية    عناية الدولة السعودية واهتمامها بالكِتاب والسُّنَّة    مجموعة (لمسة وفاء) تزور بدر العباسي للإطمئنان عليه    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.