{ تعتبر المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية أو المدونة العربية أحد المشاريع الاستراتيجية لمبادرة الملك عبدالله للمحتوى العربي. يهدف المشروع إلى بناء مدونة لغوية عربية تحوي 700 مليون كلمة مما دوّن بالعربية، ابتداء من العصر الجاهلي وحتى العصر الحديث ومن مختلف المناطق والبلدان، مع الأخذ في الاعتبار طبيعة وحجم النشاط الفكري لكل فترة، وتنوع أوعية النشر فيها مخطوطات، صحف، كتب، مجلات، دوريات علمية،... والسائد من المجالات العلمية والفكرية المختلفة المعتقدات، علوم العربية، العلوم الطبيعية، الأدب.... كما يشمل المشروع إضافة إلى المادة اللغوية المصنفة، إنشاء موقع للمدونة على الإنترنت، إضافة إلى أدوات للبحث والتحليل اللغوي والإحصائي تعزز الاستفادة من مواد المدونة. "الحياة"التقت المشرف على المدونة العربية الدكتور عبدالمحسن الثبيتي، فكان هذا الحوار معه حول هذا المشروع الثقافي الرائد: بداية هل يمكن تعريف القارئ بفكرة المدونة العربية؟ - المدونات اللغوية ببساطة هي نصوصٌ إلكترونية تجمع لغرض معين بناء على معايير خارجية. وعندما نقول معايير خارجية، أي أنه لا علاقة لمحتوى النص ومفرداته وتراكيبه بقرار اختيار النص. ومن أمثلة هذه المعايير الخارجية، الفترة التي ظهر فيها النص وموضوعه ومكان طباعته. واعتماداً على هذا التعريف فإننا نقول إن المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية - التي نسميها اختصاراً المدونة العربية - هي نصوص إلكترونية جمعت لغرضين رئيسيين، هما دراسة اللغة وبناء النماذج الحاسوبية للغة العربية من واقع استخدامها الفعلي لكلا الغرضين. وكانت المعايير التي اعتمدناها لجمع هذه النصوص مرتكزة على محاور رئيسية هي الزمن من عصر ما قبل الإسلام وحتى عصرنا الحالي والوعاء الذي ظهر فيه النص بما يتناسب مع الفترة الزمنية مخطوطات، كتب، صحف مجلات،... ثم المجال المعرفي الشائع في كل زمن والمناسب لكل وعاء وأن تكون أغلب مادتها من البلدان العربية. هل يمكن معرفة كيف بدأت فكرة المدونة اللغوية هذه؟ وكيف تحولت من فكرة إلى واقع؟ - بداية أوضحُ أن فكرة استخدام المدونات اللغوية بدأت في بدايات الستينات الميلادية من القرن الماضي في أميركا تحديداً وكانت أولى المدونات هي مدونة براون - نسبة إلى جامعة براون الأميركية - التي حوت مليون كلمة من الإنكليزية الأميركية المعاصرة في ذلك الوقت. وكانت تتكون من 500 نص كل منها يحتوي على ألفي كلمة. ولعلك تتخيل الوقت والجهد الذي بذل لجمع هذا العدد ورقمنته وتهيئته للحاسب المحدود القدرات ذلك الوقت مقارنة بوقتنا الحالي. وكانت الفكرة الرئيسية لهذا المشروع هي دراسة اللغة بناء على استخدامها الواقعي الفعلي التجريبي، وجوبهت هذه الفكرة بحرب شديدة من تشومسكي ومدرسته التي كانت تدرس اللغة بأسلوب مغاير. وتسبب هذا في تأخر الاستفادة من المدونات اللغوية لمدة عشرين سنة إلى أن بدأت الفكرة تلقى القبول والاستحسان مرة أخرى بسبب الفوائد التي ظهرت من استخداماتها في الثمانينات من القرن الماضي، خصوصاً في بريطانيا ثم انتشر هذا الاهتمام إلى أوروبا واميركا. ومن نهاية فترة الثمانينات من القرن العشرين كانت هناك محاولات لبناء مدونات لغوية عربية، ولكن أغلبها لم يكن متاحاً للاستفادة منه. وكانت تعاني من مشكلتين رئيستين: الأولى أنها محدودة الحجم في الأغلب، والثانية أنها كانت منحازة لمصدر واحد فقط وهو الصحف ولفترة زمنية ضيقة. وعند وضع الخطة الوطنية للعلوم والتقنية وكذلك مبادرة الملك عبدالله للمحتوى العربي كانت أولى التوصيات هي بناء مدونة لغوية عربية كونها الأساس الذي يمكن أن تنطلق منه جهود تطوير تقنيات حوسبة اللغة التي ستعزز من جودة وكمية المحتوى العربي على الإنترنت وتسهل الوصول اليه والتعامل معه بطريقة أفضل. تسعى المدونة اللغوية لتكون أكبر مدونة لغوية عربية، إذ تطمح للوصول إلى بليون كلمة.. إلى أين وصل هذا الطموح الآن؟ - وصلنا الآن إلى أكثر من 700 مليون كلمة موزعة على أكثر من مليون نصٍ. تم جمع وتصنيف أغلبها بطريقة آلية خلال أقل من عام. ونخطط إلى أن تصل المدونة إلى بليون كلمة قبل نهاية العام بحول الله. كيف تبنت مدينة الملك عبدالعزيز للعلوم والتقنية هذا المشروع؟ وما الدعم الذي قدمته للمشروع؟ - المدونة اللغوية العربية مشروع استراتيجي من مشاريع مبادرة الملك عبدالله للمحتوى العربي. ومدينة الملك عبدالعزيز هي الجهة المسؤولة عن هذه المبادرة، وتولت المدينة جميع التكاليف المادية الخاصة بالمدونة وبالعاملين عليها. إلى من هي موجهة فكرة المحتوى العربي، بمعنى آخر من هم الذين يمكنهم الاستفادة من هذا المشروع في ما بعد؟ - مبادرة الملك عبدالله للمحتوى العربي كما أراها هي مبادرة لتعزيز وجود محتوى عربي بالكم والكيف اللائقين بالثقافة العربية والإسلامية على الإنترنت، كما تسعى لتشجيع صناعة قائمة على المحتوى العربي والتعامل معه سواء في الانترنت أو داخل المؤسسات العامة والخاصة. وحتى تنجح هذه الصناعة يجب ان تدعم من خلال تشجيع الأبحاث التي تتعامل مع المحتوى العربي بصوره المتعددة وتوفير البنية الأساسية لهذه الابحاث. وأول خطوة لهذا المجهود والتوجه هي إيجاد البيانات اللازمة والكافية لإجراء الأبحاث الخاصة بمعالجة اللغة العربية في صورتها المكتوبة. هذه البيانات هي المدونة اللغوية العربية. والمدونة العربية موجهة بالدرجة الاولى الى اللغويين لدراسة اللغة العربية واستخداماتها بطريقة جديدة غير مطروقة في ما احسب من قبل، كما أن المدونة موجهة للمهتمين بحوسبة اللغة لبناء النماذج الحاسوبية للغة العربية وإنتاج أنظمة يمكن ان تتعامل مع النصوص العربية بذكاء. هل ثمة عراقيل واجهت تحقيق هذا المشروع الكبير؟ - هناك بعض الصعوبات وهي تتعلق بالحصول على بعض النصوص خصوصاً النصوص العلمية والتطبيقية وكذلك الحصول على نصوص للصحف والمجلات القديمة. وحاولنا التواصل مع صحف ومجلات عدة لتزويدنا بنسخ الكترونية لأعدادها القديمة ولكننا للأسف لم نلق أي تجاوب. وصلت الكلمات في المدونة والتي من دون تكرار إلى ما يزيد على ستة ملايين كلمة، كيف سيكون الأمر بعد سنة مثلاً؟ - دعني أُعرف معنى كلمة عند استخدامنا لها في المدونة. ما نعنيه بالكلمة هو رسمها. فمثلاً الرسم المختلف لكلمة كتاب مثل كِتاب، كُتاَب، كِتابُ، كِتابٌ، كِتابَ، كتابُ يجعلها كلمات مختلفة. وكذا الحال في رسم حرف الجر إلى، الى، إلى، إلى وأن، ان، إن، أنَ و إنَ، فالتشكيل والهمزات وإضافة المدود واختلاف طرق استخدامها تؤثر كثيراً في هذا. وهذه أحد المصاعب التي تواجه معالجة اللغة العربية. بطبيعة الحال كلما اضفنا نصوصاً جديدة للمدونة سيزداد عدد الكلمات المفردة في المدونة ولكن مقدار الزيادة بطبيعة الحال ستقل مع الزمن ومع ازدياد عدد النصوص لأن المدونة ستستقر وتصل الى مرحلة التشبع ولعلي انبه هنا الى أن قسماً كبيراً من كلمات المدونة لا يظهر الا مرة واحدة او لعدد محدود. وهذه في الغالب لا تكون محط اهتمام الباحثين. اغلب التركيز يكون على الكلمات الاكثر تكراراً والكلمات المتوسطة الاستخدام. بالإمكان ازالة التشكيل من النصوص أو حتى تصحيح الهمزات وازالة المدود، ولكن هنا نكون غيرنا النص الأصلي، وبالتالي أنتجنا صورة مغايرة ومخالفة للواقع الفعلي للغة وستكون كل دراساتنا الخاصة باللغة أو حوسبتها وكذلك ما ينتج منها من انظمة وبرامج لمعالجتها غير ذات نفع إن قمنا فعلاً بالتدخل والتصحيح بحسب ما نراه.