الفتح ينهي استعداداته قبل لقاء الأهلي    يايسله يرحب برحيل لاعب الأهلي    غيابات عديدة في النصر أمام الأخدود    ارتفاع سعر الذهب الى 4501.44 دولار للأوقية    برعاية أمير منطقة جازان.. مهرجان جازان 2026 يستهل مشواره بانطلاقة كرنفالية كبرى    البحرين تعرب عن دعمها للجهود الهادفة إلى تعزيز الأمن والاستقرار في اليمن    120 صقارًا يدشنون أشواط نخبة المحليين في انطلاق مهرجان الملك عبدالعزيز للصقور    «بيئة مكة» تمكّن الأطفال من الابتكار التطوعي البيئي عبر هاكاثون «غراس» الأول    روسيا تنفي التقارير حول عزمها تعديل الخطة الأمريكية للتسوية في أوكرانيا    ترسيخ ثقافة العطاء والانتماء    الرئيس التركي يلتقي رئيس مجلس السيادة السوداني    اتحاد الغرف السعودية يكرم السلامة    آل الشيخ: جائزة طارق القصبي نموذج وطني لدعم البحث والابتكار في الهندسة المدنية    المطر والحنين    رئاسة الشؤون الدينية تدعو قاصدي الحرمين إلى الالتزام بآداب وفضائل يوم الجمعة    واشنطن مُهددة في سباق الذكاء الاصطناعي    نيوم يتغلب على النجمة بثنائية في دوري روشن للمحترفين    الاتفاق يكسب الرياض بثنائية في دوري روشن للمحترفين    القبض على (7) مخالفين في جازان لتهريبهم (126) كجم "قات"    من البحث إلى التسويق الجامعات في فخ التصنيفات العالمي    الفصحى: جمع شمل    رومانو : ريال مدريد غير مهتم بالتعاقد مع لاعب الهلال روبن نيفيز حاليًا    برعاية وزير التعليم جامعة أم القرى تفتتح ورشة "تبادل التجارب والممارسات المتميزة في كفاءة الإنفاق لمنظومة التعليم والتدريب"    جامعة أم القرى تستضيف اجتماع وكلاء الجامعات السعودية للشؤون الإدارية والمالية    «أرفى» تكرّم الجهات الداعمة لمسيرة العطاء مع مرضى التصلب المتعدد    نائب أمير جازان يستقبل نائب الرئيس التنفيذي للمؤسسة الخيرية لرعاية الأيتام "إخاء"        ‏نائب أمير منطقة جازان يستقبل نائب وزير الصناعة والثروة المعدنية لشؤون التعدين    الشؤون الإسلامية في جازان تُقيم ورشة عمل لتأهيل المراقبات بمساجد محافظة أبو عريش    مركز الحياة الفطرية يطلق 61 كائناً فطرياً بمحمية الملك خالد الملكية    مدير عام فرع الشؤون الإسلامية في جازان يتفقد جوامع ومساجد العيدابي ويفتتح مسجد النور    د. مريم الدغيم تحصل على براءة الاختراع الأمريكية    ارتفاع الصادرات غير البترولية بنسبة 32.3% في أكتوبر 2025    وزير الشؤون الإسلامية يستقبل سفير خادم الحرمين الشريفين لدى فيتنام    إنفاذ يشرف على 75 مزادا عقاريا لتصفية وبيع أكثر من 900 أصل في مطلع 2026    تكريم الجمعيات المتميزة وقادة العمل التطوعي في جازان خلال حفل مركز التنمية الاجتماعية    جولة ميدانية للوقوف على جاهزية الواجهة البحرية بقوز الجعافرة استعدادًا لانطلاق المهرجان الشتوي    السعودية: تحركات المجلس الانتقالي الجنوبي في حضرموت والمهرة تمت دون موافقة مجلس القيادة الرئاسي أو التنسيق مع قيادة التحالف    نائب أمير تبوك يواسي أسرة الخريصي في وفاة الشيخ أحمد الخريصي    تطبيق علاج وقائي للحد من تطور السكري    الشيباني: العلاقات مع روسيا تدخل مرحلة إستراتيجية جديدة.. الداخلية السورية تتهم «قسد» بالتجنيد الإجباري في حلب    في دوري أبطال آسيا 2.. النصر يدك شباك الزوراء العراقي بخماسية    صندوق الطائرة الأسود قرب أنقرة.. تركيا تعلن العثور على جثة رئيس الأركان الليبي    المملكة في صدارة الدول بالترفيه الرقمي ب34 مليون مستخدم    سلطان عمان يمنح قائد الجوية السعودية «الوسام العسكري»    لوحات مجدي حمزة.. تجارب من واقع الحياة    40 ألف متدرب مخرجات الأكاديمية الصحية    تنفيذاً لتوجيهات خادم الحرمين وولي العهد.. وزير الداخلية يطلع على مبادرات الجوف التنموية    هندية تصلح عطلاً برمجياً في حفل زفافها    «الجوازات» تصدر 17.767 قراراً إدارياً بحق مخالفين    استدعاء 40 شخصاً نشروا «محتوى يثير التأجيج»    ارتفاع النفط والذهب    نقاشات أمنية وسياسية تسبق لقاء نتنياهو وترامب.. حدود جديدة لإسرائيل مع غزة    الإطاحة بطبيبة المشاهير المزيفة    الشباب يعلن غياب مهاجمه عبدالرزاق حمد الله لقرابة شهرين    مرحوم لا محروم    نائب أمير تبوك يواسي أسرة الخريصي في وفاة الشيخ أحمد الخريصي    النيكوتين باوتشز    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.