من أهم قواعد البحث العلمي أن الترابط (correlation) لا يقتضي بالضرورة السببية (causation). فعلى سبيل المثال إذا وجدنا إحصاءات تدل على وجود ترابط شديد بين مبيعات الآيسكريم ومبيعات إطارات السيارات، فذلك لا يعني وجود علاقة مباشرة بينهما وأن الناس تذهب لشراء الآيسكريم كلما تلفت إطارات سياراتها! لكن هذا قد يعني أن سبب الظاهرتين واحد وهو ارتفاع درجة الحرارة في فصل الصيف. وحتى في حال وجود سببية مباشرة بين الظاهرتين المترابطتين فإن اتجاه تأثير السببية قد لا يكون واضحاً في كل الحالات. ولذلك يعتمد المنهج العلمي التجريبي في اكتشاف السببية بين الظواهر المترابطة على تطوير نظريات علمية تفسر هذا الترابط. ويرى الفيلسوف كارل بوبر (Karl Popper) -المتخصص في فلسفة العلوم- بأن جودة النظرية العلمية تعتمد على مدى إمكانية إثبات خطأها (falsifiability) أو تفنيدها (refutability) أو اختبارها (testability). فلا تكتسب النظريات العلمية مكانة مرموقة حتى تقدم عددا من التوقعات التي تفسر السببية وتثبت صحتها عند الاختبار. وتقدم تقنيات البيانات الضخمة والانترنت فرصاً أوسع لتطوير العديد من الفرضيات ومن ثم تعريضها لمنهج البحث والاختبار العلمي. فعلى سبيل المثال تقوم شركة جوجل بإجراء آلاف الاختبارات سنوياً لتطوير محرك البحث الخاص بها. فتطبق أسلوب «اختبار أ/ب» على نسبة صغيرة من عدد مستخدميها الضخم، بإعطاء مجموعة «أ» النسخة الأصلية من محرك البحث ومجموعة «ب» نسخة معدلة بشكل طفيف لاختبار كفاءتها بالمقارنة مع المجموعة «أ»، ومن ثم اختيار التعديلات التي تثبت نجاحها واستخدامها في محرك البحث الرئيسي للموقع. نستطيع أن نستنتج مما سبق أن البيانات الضخمة لن تلغي منهج الاختبار العلمي واكتشاف السببية لكن الاستفادة بشكل أكبر من البيانات الضخمة قد تعتمد على اكتشاف علاقات الترابط غير المتوقعة بين الإحصاءات والبيانات المختلفة، وبالعادة فإنه يتم إهمال دراسة السببية التي تشرح هذا الترابط ومحاولة فهمها. فقد كتب كريس أندرسون (Chris Anderson) رئيس تحرير مجلة «وايرد» (Wired) مقالاً مهماً بعنوان «نهاية النظرية - فيضان البيانات يجعل المنهج العلمي مهملاً» (The End of Theory- The Data Deluge Makes the Scientific Method Obsolete). وافتتح مقاله بعبارة شهيرة لعالم الإحصاء جورج بوكس (George E. P. Box) وهي «جميع النماذج خطأ، لكن بعضها مفيد». وقال فيه إن المنهج العلمي مبني على تطوير فرضيات قابلة للاختبار، حيث يصنع العلماء نماذج تفسر بعض الظواهر الطبيعية، ثم تختبر هذه النماذج ليتم اثبات صحتها من عدمها. وأن العلم تطور بهذا الأسلوب عبر مئات السنين، حيث إن العلماء مدربون على فهم أن الترابط لا يعني السببية، وعدم بناء نتائج على مجرد هذا الترابط بدون فهم طريقة التأثير بينها. ولا يمكن الاستفادة من هذه المعلومات بدون بناء نموذج يشرح الترابط بين هذه البيانات، فالبيانات بدون نموذج مجرد ضوضاء. ويرى أندرسن أن هذا الأسلوب العلمي من تطوير فرضيات ثم بناء نماذج ثم اختبارها في طريقه للإهمال، ومع الأحجام الضخمة المتوفرة من البيانات يمكننا الاكتفاء بالترابط. ويمكننا أن نستفيد من الحاسبات الضخمة لمعالجة البيانات المختلفة واستخلاص علاقات الترابط المختلفة بينها بدون تدخل بشري بالطريقة العلمية التقليدية، وأن ندع الأرقام تتحدث بنفسها. بينما يختلف نايت سيلفر -الباحث الشهير في مجال نماذج التوقعات المستقبلية- مع هذا الاستنتاج. ويرى أن التوقعات المبنية على البيانات قابلة للنجاح أو الفشل؛ لكن عندما ننكر دورنا كبشر في أسلوب معالجتها فإننا نزيد من احتماليات الفشل. ويشير هال فاريان -خبير اقتصاديات المعلومات- إلى ناحية أخرى مهمة وهي أن الاستفادة من نماذج التوقعات -وإن كانت دقيقة- لا يكفي في كثير من الحالات بدون اكتشاف السببية. ويمثل لذلك باكتشاف ترابط بين نسبة تواجد الشرطة في الأماكن ونسبة ارتفاع الجريمة فيها، ويطرح تساؤلا عن أثر زيادة عدد أفراد الشرطة على نسبة الجريمة؟ ثم يشرح أن النموذج قد يعطي النتيجة الخاطئة بأن زيادة عدد الشرطة سوف تزيد من الجريمة، بينما اجراء اختبار حقيقي يبين عكس ذلك. ولهذا فلا بد من إجراء الاختبارات، ويرى أن تقنيات البيانات الضخمة والانترنت تيسر أسلوب الاختبار المتواصل. ونستطيع أن نستنتج مما سبق أن البيانات الضخمة لن تلغي منهج الاختبار العلمي واكتشاف السببية، بل سوف تساهم في تفسير عدد أكبر من علاقات الترابط، وفي الوقت ذاته توفر مجالات للاستفادة من مجرد الترابط. تويتر @AlQurtas