اختتام أعمال منتدى اليوم الدولي لمكافحة الفساد 2025    رئيس لجنة النقل بغرفة الأحساء: القطار الكهربائي بين المملكة وقطر خطوة استراتيجية تنموية كبيرة    مباحثات رسمية ومذكرة تفاهم بين رئيسي مجلسي الشورى السعودي والقطري في الدوحة    هاتفياً... ولي العهد ورئيس إندونيسيا يستعرضان العلاقات الثنائية وسبل دعم مجالات التعاون    نائب وزير الخارجية يلتقي نائب وزير خارجية إيران    أمير الشمالية يدشّن الملتقى الرياضي السعودي 2025    القبض على مواطنين بتبوك لترويج الحشيش وأقراص خاضعة للتداول الطبي    تكريم موضي بنت خالد ونوف بنت عبدالرحمن في جلسة استعرضت دور المرأة في العمل التطوعي    أمير جازان يكرّم الطالبة لانا أبوطالب لتحقيقها الميدالية الذهبية في معرض سيئول للاختراعات 2025    أمطار الرحمة تعانق المسجد النبوي    ولي العهد يفتتح مرافق قاعدة الملك سلمان الجوية    أمير الرياض يفتتح أعمال مؤتمر التمويل التنموي 2025    زيلينسكي يصل روما لمناقشة خطة السلام    موقف محمد صلاح بعد استبعاده من مواجهة انتر ميلان    الجامعة العربية تدين اقتحام القوات الإسرائيلية مقر "الأونروا" بالقدس الشرقية    أمانة جدة تباشر جهودها الميدانية للتعامل مع الحالة المطرية    رصد أكثر من 10 آلاف طائر مائي في محمية جزر فرسان    شمال جدة يسجل أعلى هطول أمطار في السعودية خلال 5 ساعات    انطلاق ملتقى هيئات التطوير تحت شعار «نخطط مدن لمستقبل مزدهر»    وزارة الثقافة توقع مذكرة تفاهم مع مركز الملك فيصل لتعزيز التعاون العلمي والثقافي    ميدان فروسية الدمام يعلن نتائج الحفل الثاني لموسم 1447ه    تعليم الطائف يُطلق حملة 10KSA الدولية    صحفيو مكة يستضيفون عبدالعزيز خوجة في لقاء عن الصحافة السعودية    توسع شركة الفنار للمشاريع عالميا بافتتاح مكاتب جديدة في الصين والمملكة المتحدة    حي حراء الثقافي يعزّز التجربة السياحية    تراجع أسعار النفط    الرعاية المنزلية: خدمة إنسانية تقلل عبء المستشفيات    تركها زوجها وحيدة .. أسترالية تموت «متجمدة»    موجز    إطلاق 37 كائناً فطرياً في «محمية الحجر»    متحدث الجوازات: تفعيل الجواز شرط للسفر بالهوية الوطنية بعد التجديد.. ولا يشمل الإصدار لأول مرة    تمطيط    «الشمالية».. محطة الطيور المهاجرة    4.8 % نمو الناتج المحلي    حماس منفتحة على مناقشة تجميد السلاح.. إسرائيل تضع حدوداً جديدة لغزة ب«خط أصفر»    منتخب عمان يتغلب على جزر القمر ويودع كأس العرب    القوات الخاصة للأمن البيئي تشارك في معرض (واحة الأمن) بمهرجان الملك عبدالعزيز للإبل ال (10) بالصياهد    الرسالة الأهم.. أنت تختلف عنهم    ماجدة زكي تبدأ تصوير رأس الأفعى    «مندوب الليل» يجسد أحلام الطبقة الشعبية    برعاية وزير الرياضة| انطلاق بطولة مهد الدولية للقارات في نسختها الثانية    في الجولة السادسة من دوري أبطال أوروبا.. إنتر لاستغلال ظروف ليفربول.. وبرشلونة يواجه فرانكفورت    إطلاق «هداية ثون» لتطوير الخدمات الرقمية بالحرمين    هل ينشر الإنترنت الجهل؟    الميكروبات المقاومة للعلاج (3)    إحالة منشأة إلى النيابة لبيعها أجهزة طبية مخالفة    "التخصصي" يتوّج بثلاث جوائز    إحالة منشأة إلى النيابة لتداول أجهزة طبية مخالفة    الاجتماع الأول للجنة الصحة المدرسية لمناقشة مهامها ضمن إطار انضمام محافظة بيش لبرنامج المدن الصحية    أين وصلت محادثات السلام؟    السودان يقف بين تفاقم الأزمة الإنسانية ونقص التمويل    الرياض أول مدينة سعودية تنضم رسميًا إلى شبكة المدن العالمية    خيرية مرض ألزهايمر تحصد شهادة الأثر الاجتماعي    نائب أمير المنطقة الشرقية يستقبل رئيس مجلس إدارة جمعية الذوق العام    ⁨الإسلام دين السلام لا إرهاب وعنف⁩    لا تلوموني في هواها    هيئة «الشورى» تحيل تقارير ثلاث جامعات للمجلس    نائب أمير الشرقية يطلع على أعمال فرع الرئاسة العامة لهيئة الأمر بالمعروف بالمنطقة    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.