ارتفاع طلبات التمويل العقاري في أمريكا رغم ارتفاع الفائدة    تنمية الناتج والمحتوى المحلي والصادرات.. 8,8 مليار استثمارات صناعية ولوجستية في «مدن»    السعودية تعزز شراكات اقتصاد الهيدروجين    دعم التبادل التجاري مع إيطاليا    «أونروا»: الضفة تواجه أسوأ أزمة إنسانية    «السيبراني»: احذروا من تحديثات منتجات NVIDIA    قوات إسرائيلية تتوغل مجدداً بريف القنيطرة    وزيرا داخلية البلدين يبحثان مكافحة الجريمة.. خطة سعودية – إسبانية مشتركة للتعاون الأمني    أبطال أوروبا.. ليفربول يسقط برباعية أمام آيندهوفن    في ربع نهائي كأس الملك.. الأهلي والاتحاد يواجهان القادسية والشباب    تقمص هيئة والدته «المتوفاة» لأخذ معاشها    تقليد إلفيس بريسلي ينهي مسيرة قاض    «شارع الأعشى 2» في ماراثون رمضان    السجادة الحمراء تجمع المعجبين ب«نجوم السينما»    استعرضا عدداً من المبادرات والمشروعات التطويرية.. أمير المدينة والربيعة يناقشان الارتقاء بتجربة الحجاج    عبر منظومة خدمات لضيوف الرحمن.. الحج: 13.9 مليون مرة أداء للعمرة خلال جمادى الأولى    سلالة إنفلونزا جديدة تجتاح أوروبا    خلال المؤتمر العالمي ال48 في جنيف.. السعودية تحرز 18 جائزة دولية عن تميز مستشفياتها    40% يضعون الطاقة الشمسية ضمن خياراتهم    أمير قطر وتركي بن محمد يبحثان العلاقات الثنائية    أرقام خاصة بالهلال    المملكة وتعزيز النزاهة المالية ومكافحة غسل الأموال    القبض على مهربي قات    وفد من وزارة الخارجية والكومنولث البريطاني يطلع على جهود مركز الملك سلمان للإغاثة في اليمن    نشر 500 عنصر إضافي من الحرس الوطني في واشنطن    مركبة لناسا ترصد "برقا مصغرا" على المريخ    أحلام آل ثنيان: «الدرعية للرواية» يقدم فرصة لنكون جزءًا من سرديات العالم    هلال مكة يسلم شهادة الامتثال الإسعافي لصحة جدة    10 آلاف ريال غرامة الصيد دون ترخيص    أمير الرياض يلتقي "تنفيذي حقوق الإنسان" في منظمة التعاون الإسلامي    أكثر من 66 مليون قاصد للحرمين الشريفين في شهر    أمير تبوك يستقبل قنصل الفلبين    مبابي يسجّل ثاني أسرع «هاتريك» في تاريخ دوري أبطال أوروبا    المملكة تحرز 18 جائزة دولية عن تميز مستشفياتها    "تخصصي المدينة" يستأصل ورماً نادراً في المثانة    بدء أعمال الدورة ال55 لمجلس وزراء الإعلام العرب    غداً .. انطلاق الجولة الثانية من جولات الرياض لقفز الحواجز    أمير قطر يستقبل الأمير تركي بن محمد بن فهد    محافظ الأحساء يطلع على جهود مركز عبدالله بن إدريس الثقافي    ملف الرفات وتحديات الهدنة: تبادل هش ومصير معلق في غزة    تصاعد الدبلوماسية بين موسكو وواشنطن: جهود مكثفة لإنهاء حرب أوكرانيا    إتاحة التنزه بمحمية الطوقي    "دعوة خميس مشيط" تواصل برامجها الدعوية في سجن الخميس العام لشهر جمادى الآخرة    «سلمان للإغاثة» يوزّع (882) سلة غذائية و(882) كرتون تمر في عكار بلبنان    المكتب التنفيذي لمجلس وزراء الإعلام العرب يعقد أعمال دورته ال21    الأمن العام يدعو ضيوف الرحمن إلى الالتزام بالممرات المخصصة داخل الحرم    نجاح النسخة الأولى من منتدى الأعمال الذي نظمته وكالة التجارة الإيطالية في المملكة العربية السعودية    13.9 مليون إجمالي مرات أداء للعمرة خلال شهر جمادى الأولى    عنبر المطيري تُشعل «وهج القصيد» في أمسية شعرية تحت مظلة الشريك الأدبي    التأكيد على أهمية ضمان مسار حقيقي للتوصل إلى حل الدولتين    خالد بن سلمان يرأس وفد المملكة في اجتماع مجلس الدفاع الخليجي    علماء: مذنب يقترب من الأرض مطلع يناير    موسكو تطالب بجدول زمني لانسحاب الاحتلال    «الجوازات» تصدر 25,646 قراراً بحق مخالفين    تماشياً مع الأهداف العالمية للصحة والتنمية.. الربيعة: السعودية حريصة على حماية حقوق التوائم الملتصقة    الداخلية تسهم في إحباط تهريب 28 ألف كلجم من الكوكايين ومادة الإكستاسي    أمير تبوك يستقبل سفير دولة الكويت لدى المملكة    تحت رعاية عبدالعزيز بن سعود.. تكريم المتقاعدين من منسوبي الأحوال المدنية    







شكرا على الإبلاغ!
سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.



مقدمة مختصرة جدًا في علم البيانات
نشر في اليوم يوم 10 - 09 - 2016

كتبت فيما سبق عن ثورة المعلومات الخامسة أو ثورة البيانات الضخمة، وفي تقديري الشخصي أن أهم ما يميزها هو شيوع علم البيانات للاستفادة من هذه البيانات. وأود أن أقدم في هذا المقال مدخلاً مبسطاً (وإن كان أكثر تقنية من المقالات الأخرى) لعلم البيانات لغير المتخصصين. علم البيانات كما ذكرت سابقاً هو مجموعة من أساليب التحليل التي تعتمد على خوارزميات التعلم الآلي وأساليب التنقيب في البيانات مع اتباع المنهج العلمي واستعمال علم الإحصاء. وعلم البيانات في حقيقته ليس جديداً وكان يمارس تحت مسميات أخرى، لكن مع تطور الحاسبات وتوافر البيانات أصبح أكثر شيوعاً وأسهل في الاستفادة منه، ومنح اسماً جديداً زاد من جاذبيته.
يبدأ معظم علماء البيانات بمرحلة من الاستكشاف، ومحاولة فهم توزيع البيانات التي يتعاملون معها، ويكون ذلك عن طريق الاطلاع على الإحصاءات المتعلقة بها، ومحاولة عرضها على شكل رسوم بيانية. مما يمكن الباحث من الحكم على مدى دقة البيانات وإمكانية الإعتماد عليها. ومن ثم تكون مرحلة إعداد البيانات و«تنظيفها» من خلال إلغاء أي أجزاء يبدو أنها تالفة أو غير دقيقة من خلال الأساليب الإحصائية، ومن ثم التأكد من بقاء ما يكفي من بيانات لإجراء التحليلات المطلوبة.
ويقوم علماء البيانات بتقسيم البيانات إلى ما يدعى مجموعة التعليم (Training Set) ومجموعة الاختبار (Test Set). والسبب في ذلك أن استخدام جميع البيانات في صناعة النموذج سيؤدي إلى ما يدعى بالإفراط في المطابقة (overfitting) ما يفسر الماء بعد جهد بالماء! حيث إن الهدف في العادة هو الاستفادة من البيانات المتوافرة لبناء نماذج لتوقع ما لا يتوافر من بيانات، وإذا ما أفرطنا في مطابقة البيانات المتوافرة فإن النموذج سوف يعطي نتائج ضعيفة جدا للبيانات الأخرى التي لم يرها من قبل. ولذلك تنتشر المقولة المنسوبة لرونالد كوس (Ronald Coase) الحائز على جائزة نوبل في الاقتصاد: «إذا قمت بتعذيب البيانات لمدة كافية فإنها ستعترف!»، والمقصود بها التحذير من التعامل مع البيانات بطريقة خاطئة لإثبات نتائج مسبقة، لذلك يتم تمرين النماذج على مجموعة التعليم فقط، ثم اختبار أدائها على مجموعة الاختبار، وكما يعلم خبراء علم الإحصاء أن الحصول على نتيجة مطابقة عالية (يمكن تقديرها فوق 90%) عادةً ما تعني وجود خطأ في تحضير البيانات، حيث إن أنجح النماذج تكون في الأغلب أقل دقة في صحة توقعاتها.
يمكن تقسيم النماذج التي يستعملها علماء البيانات بشكل عام إلى ثلاثة أساليب لتحليل البيانات:
1- تحليل الانحدار (regression)، وهو يستخدم لبناء نماذج لتوقع النتائج الرقمية، ويحدد فيه المتغير المستهدف (target variable)، والبيانات الأخرى المستخدمة لتوقع قيمة المتغير المستهدف، وتسمى متغيرات التوقع (predictor variables) مثل: محاولة تحديد عمر مستخدم الجوال من خلال الخدمات وعدد الدقائق التي استهلكها.
2- التصنيف (classification) وهو يشبه الأسلوب الأول، لكنه يستخدم لتوقع النتائج غير الرقمية، ويقسم البيانات إلى قسمين أو أكثر على أساس قيم محددة مسبقاً للمتغير المستهدف. مثل محاولة تحديد جنس المشتري بناءً على قائمة مشتريات.
3- تجميع البيانات (clustering)، يستخدم هذ الأسلوب لتقسيم البيانات إلى مجموعات متجانسة، لكنه يختلف عن سابقيه في كونه لا يعطى تعليمات (unsupervised) بخصوص أساس التقسيم. وقد يخرج بنتائج غير متوقعة للتشابه بين مجموعات كانت تبدو مختلفة لأول وهلة، مثل: محاولة تقسيم بيانات زبائن شركة إلى عدد محدد من المجموعات.
يستخدم في التحليل عدد كبير من الخوارزميات، مثل: «Neural Networks»، «Nearest Neighbor»، «SVM»، «Random Forests» وغيرها. وتختلف جودة أدائها باختلاف المسائل، وكثيرا ما يحصل علماء البيانات على أفضل نتائج عن طريق التجريب والخطأ ومن ثم التصحيح، وبالاعتماد على الخبرة السابقة وليس على قوانين محددة. وتستخدم طرق مطورة من هذه الأساليب كذلك لتحليل الكلام، (text analytics) ومحاولة معرفة «الانطباعات» (sentiment) في وسائل التواصل الاجتماعي، إضافة إلى تحليل الروابط والتأثير في الشبكات الاجتماعية وغيرها.
وتستخدم هذه الأساليب لتطبيقات بسيطة مثل محاولة توقع عدد زبائن أحد المحلات التجارية أو تحليل سمعة منتج ما على تويتر، وتستعمل أساليب مطورة منها لبرمجة السيارات ذاتية القيادة والروبوتات وغيرها من التطبيقات الأكثر تعقيداً. لعل ما سبق يعطي فكرة عن كيفية الاستفادة من علم البيانات، وتعدد استعمالاته ولماذا يعتبر من أهم التخصصات اليوم.


انقر هنا لقراءة الخبر من مصدره.