ترشيح الحكم الدولي د. محمد الحسين لبرنامج التعليم التحكيمي الآسيوي 2025 في سيئول    لجنة التحكيم بمهرجان الملك عبدالعزيز للإبل تعلن الفائز الأول في شوط سيف الملك "شقح"    المتصدّر يتعثر.. والعلا يقفز إلى الوصافة    اتفاق النخبة يواصل صدارته قبل التوقف    الهلال يكسب الشارقة الإماراتي ويعزّز صدارته للنخبة الآسيوية    جنوب أفريقيا تستهل مشوارها في كأس الأمم بالفوز على أنجولا    النفط يرتفع بفعل مخاوف تعطل بالإمدادات من فنزويلا وروسيا    الذكاء الاصطناعي يعيد تشكيل سوق العمل    طائرات مسيرة واغتيالات نوعية تحولات في أدوات صراع موسكو وكييف    مناورات صاروخية إيرانية    وصول الطائرة الإغاثية السعودية ال 76 لإغاثة الشعب الفلسطيني في قطاع غزة    إسرائيل توسع تحركاتها من جنوب لبنان إلى الجبهة السورية    الارتباك المكاني عند الاستيقاظ صباحا    السكري وتأثيره الخفي على البصر    منصة إلكترونية لتسهيل أعمال مجلس التنسيق السعودي العماني    المنح التعليمية ودورها في التنمية    أمين نجران يتفقد المشروعات البلدية بشرورة والوديعة    خطر الدراما وأثرها في خراب البيوت    لماذا تخاف وقد اختارك الله من بين الملايين    مجموعة stc تعزز خدماتها الرقمية في مدينة القدية بشراكة السرعة لمنتزه Six Flags    أمين الشرقية: المدينة العالمية بالدمام وجهة سياحية وترفيهية فريدة    الأمير سعود بن نهار يطّلع على خطط ومشاريع شركة المياه الوطنية    ورشة عمل تناقش الاستفادة من الدعم الحكومي لرأس المال البشري في قطاع الإعلام    الملحق العسكري في سفارة مصر بالمملكة يزور التحالف الإسلامي    مكتبة الملك عبدالعزيز العامة تطلق مهرجان القراءة ال 25    "الشورى " يقر مشروع تطوير الاطار التشريعي للإجراءات الجمركية    نجاح أول عملية للعمود الفقري بتقنية (OLIF) الحديثة بمستشفى الملك فهد بجازان    فريق طبي بمستشفى الإيمان العام يُجري عملية تلبيس مفصل الركبة بنجاح    سوق الأسهم السعودية يغلق مرتفعا 67 نقطة    أمير جازان يستقبل رئيس جامعة جازان الدكتور محمد بن حسن أبو راسين    جناح إمارة مكة المكرمة يقدم عرضًا تعريفيًا عن محافظات المنطقة ضمن مهرجان الإبل    الإدارة العامة للاتصالات والأنظمة الأمنية تدعم الجاهزية التشغيلية في معرض «واحة الأمن»    بين الملاحظة و«لفت النظر».. لماذا ترتاح المرأة للاهتمام الذي لا يُطلب !!    زراعة النخاع العظمي الذاتية تسجل نجاحها الثالث    فقيه للرعاية الصحية تطلق برنامج دعم الابتكار في DeveGo 2025    مدرب نابولي: بلغنا النهائي بجدارة واستحقاق    انطلاق تصفيات مسابقة الملك سلمان لحفظ القرآن في جازان    شراكة نوعية لتعزيز الخدمات الصحية والمجتمعية في الباحة    سحب 5.5 ملايين متر مكعب من مياه الأمطار في الشرقية    تنوع بيولوجي في محمية الملك سلمان    خطط «الصحة» على طاولة أمير القصيم    «الشؤون الإسلامية» في عسير تنفذ 30 ألف جولة رقابية    من هن النسويات؟    ضبط متفجرات ومسيرات قرب دمشق.. الأمن السوري يفكك خلية تهرب الأسلحة لداعش    إنفاذًا لأمر خادم الحرمين الشريفين.. سمو وزير الدفاع يُقلِّد قائد الجيش الباكستاني وسام الملك عبدالعزيز من الدرجة الممتازة    بناء القدرات وتبني الابتكار وتعزيز الشفافية.. السعودية تتقدم في مؤشر أداء الأجهزة الإحصائية    جهود أمين جدة وسرعة الإنجاز لشبكة تصريف الأمطار    أين يبدأ التنمر الوظيفي وأين ينتهي؟    أكد على تمكين المستثمرين الصناعيين..الخريف: 790 مليار ريال مساهمة «ندلب» في الناتج المحلي    إنفاذاً لأمر خادم الحرمين الشريفين.. وزير الدفاع يقلد قائد الجيش الباكستاني وسام الملك عبدالعزيز    تقدم في نزع الألغام ببابنوسة.. تحركات دبلوماسية لوقف النار في السودان    معرض جدة للكتاب 2025 يختتم فعالياته    القراءة.. الصديق الذي لا يخذل    طربيات «موسم الخبر» تبرز فن تركي عبدالعزيز    أنغام تودع عاماً وتستقبل عاماً في «ليلة الحب»    ألمانيا: إصدار أكثر من 100 ألف تأشيرة في إطار لم شمل عائلات اللاجئين في 2025    في كل شاب سعودي شيء من محمد بن سلمان    محمية الأمير محمد بن سلمان الملكية تعيد توطين طائر الجمل بعد غياب 100 عام    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.