مركز الملك عبدالعزيز للتواصل الحضاري يشارك في مؤتمر الرياض الدولي للفلسفة 2025    الاتحاد يمدد عقد عبد الرحمن العبود    غوميز يستهدف بديل إيكامبي    استقرار أسعار الذهب    وفد أعضاء لجنة الصداقة البرلمانية السعودية الهندية بمجلس الشورى يلتقي وزير الشؤون البرلمانية وشؤون الأقليات بجمهورية الهند    اللواء العنزي يشهد حفل تكريم متقاعدي الأفواج الأمنية    ملتقى ميزانية 2026 يختتم أعماله    باستوريلو يضع النقاط على الحروف بشأن صفقات الهلال    هيئة الهلال الاحمر بالباحة تشارك جمعية الاطفال ذوي الاعاقة الاحتفاء باليوم العالمي للأشخاص ذوي الإعاقة    جمعية التطوع تفوز بالمركز الأول في الجائزة الوطنية للعمل التطوعي    منظومة التدريب التقني والمهني بتبوك تستعرض مبادراتها    وزير التعليم يلتقي القيادات بجامعة تبوك    المؤتمر العربي رفيع المستوى يدعو إلى تعزيز حماية الأطفال    المجلس العالمي لمخططي المدن والأقاليم يختتم أعماله    اعلان مواعيد زيارة الروضة الشريفة في المسجد النبوي    التوصل لإنتاج دواء جديد لعلاج مرض باركنسون "الشلل الرعاش"    هيئة الأدب والنشر والترجمة تنظّم مؤتمر الرياض الدولي للفلسفة 2025    أمين جازان يتفقد مشاريع الدرب والشقيق    كولينا : استخدام (فار) في احتساب الضربات الركنية لن يعطل المباريات    تهامة قحطان تحافظ على موروثها الشعبي    الدفاع المدني يحتفي بيوم التطوع السعودي والعالمي 2025م    أمير تبوك يستقبل معالي وزير التعليم ويدشن ويضع حجر الأساس لمشروعات تعليمية بالمنطقة    جمعية سفراء التراث تحصد درجة "ممتازة " في تقييم الحوكمة لعام 2024    رصد مسيرات بالقرب من مسار رحلة زيلينسكي إلى دبلن    واشنطن تستضيف قرعة كأس العالم 2026 اليوم    وزير التعليم يؤكد استمرار تطوير التعليم في تبوك وتعزيز البنية الرقمية وتهيئة البيئة التعليمية    ب 56 ميدالية .. السعودية تتصدر العالم في بطولة كمال الأجسام    أمير جازان يؤدي واجب العزاء لأحد أفراد الحماية في وفاة شقيقته    في الوقت القاتل .. سوريا تخطف التعادل أمام قطر في كأس العرب 2025    منتدى القطاع غير الربحي الدولي بالرياض.. خارطة طريق لتعزيز الاستدامة والابتكار في القطاع    معركة الرواية: إسرائيل تخوض حربا لمحو التاريخ    مفتي عام المملكة يستقبل الرئيس التنفيذي لهيئة الإذاعة والتلفزيون    السعودية تسجل رقما عالميا في موسوعة غينيس كأكبر عدد من المشاهدين لدروس مباشرة عن التطوع    انطلاق العرض الدولي ال8 لجمال الخيل العربية الأصيلة في ال9 من ديسمبر الجاري بالرياض    قمة البحرين تؤكد تنفيذ رؤية خادم الحرمين لتعزيز العمل الخليجي وتثمن جهود ولي العهد للسلام في السودان    أمير منطقة تبوك يكرم المواطن فواز العنزي تقديرًا لموقفه الإنساني في تبرعه بكليته لابنة صديقه    مفردات من قلب الجنوب ٣١    أكد معالجة تداعيات محاولة فرض الأحكام العرفية.. رئيس كوريا الجنوبية يعتذر عن الأخطاء تجاه «الشمالية»    1.3 مليار ريال للبنية التحتية والكهربائية ل«قمم السودة»    برعاية خادم الحرمين..التخصصات الصحية تحتفي ب 12,591 خريجا من برامج البورد السعودي والأكاديمية الصحية 2025م    مقتل آلاف الأطفال يشعل الغضب الدولي.. العفو الدولية تتهم الدعم السريع بارتكاب جرائم حرب    سمر متولي تشارك في «كلهم بيحبوا مودي»    معرض يكشف تاريخ «دادان» أمام العالم    الناتو يشعل الجدل ويهدد مسار السلام الأوكراني.. واشنطن وموسكو على حافة تسوية معقدة    آل حمدان يحتفل بزواج أحمد    تعاون سعودي – كيني لمواجهة الأفكار المتطرفة    في ذمة الله    صيني يعيش بولاعة في معدته 35 عاماً    ابتكار علاج صيني للقضاء على فيروس HIV    الكلية البريطانية تكرم الأغا    هرمونات تعزز طاقة المرأة العاملة    افتتاح متحف زايد الوطني في أبوظبي    إقحام أنفسنا معهم انتقاص لذواتنا    لم يكن يعبأ بأن يلاحقه المصورون    الطلاق الصامت.. انفصال بلا أوراق يُربك الأسرة    القيادة تعزي رئيس سريلانكا في ضحايا إعصار ديتواه الذي ضرب بلاده    أضخم منصة عالمية للاحتفاء بالحرف اليدوية.. «الثقافية» تمثل السعودية بمعرض أرتيجانو آن فييرا    رجل الدولة والعلم والخلق الدكتور محمد العقلاء    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.