عُقدت اليوم ضمن الجلسات الحوارية المصاحبة للقمة العالمية للذكاء الاصطناعي في نسختها الثانية التي تنظمها الهيئة السعودية للبيانات والذكاء الاصطناعي "سدايا" تحت شعار "الذكاء الاصطناعي لخير البشرية" في مركز الملك عبدالعزيز الدولي للمؤتمرات بالرياض، جلسة بعنوان "بناء مصادر البيانات اللغوية والمعالجة الآلية للغة العربية". وناقشت الجلسة التي شارك فيها الدكتورة أفراح التميمي من مجمع الملك سلمان العالمي للغة العربية، وعبدالمحسن الثبيتي باحث بمدينة الملك عبدالعزيز للعلوم والتقنية، ومنصور الغامدي من هيئة تقويم التعليم والتدريب، دور الذكاء الاصطناعي في معالجة اللغة العربية، كما استُعرضت مشاريع المجمع وجهوده في تحسين مصادر البيانات والمعالجة الآلية للغة العربية. وتناولت الجلسة خمسة محاور رئيسة ركزت على: مفهوم البيانات اللغوية ومدى احتياج أنظمة الذكاء الاصطناعي إليها، إضافة إلى التحديات التي تواجه البيانات اللغوية في الوقت الحالي. كما استَعرضت الجلسة مشاريع المجمع وأثرها المتوقع في المعالجة الآلية للغة العربية في بناء مصادر البيانات اللغوية كالمدونات والمعاجم، مع التطرق إلى كيفية استثمار المجمع للتضافر الإثرائي (Crowdsourcing) وتوظيفه في بناء مصادر ضخمة للبيانات، ودور المجمع في تحسين مصادر البيانات اللغوية من حيث وضع المعايير، وتوفير أدوات المعالجة، وتحسين جودة البيانات. وأكدت الجلسة أن البيانات اللغوية حجر الأساس لنمذجة اللغة، وبناء أدوات الذكاء الاصطناعي وبرامجه بأسس علمية؛ لكونها صناعة مُتخصصة؛ وذلك لضمان الجودة الكافية، واستمرارية البناء واستدامته، مع التشديد على أهمية استثمار التضافر الإثرائي في بناء المصادر الضخمة للبيانات. وتناول المتحدثون أهمية وضع أطر مرجعية معتمدة لجمع البيانات العربية أو توسيمها، وهي أولى مراحل صناعة البيانات اللغوية، تليها مرحلة تصميم إطار البيانات ونطاقها والأهداف المتوقعة من بناء المدونة أو المصدر اللغوي، ويندرج ضمن هذه المرحلة أيضًا الحاجة إلى توحيد المعايير وفق مرجعية لغوية معتمدة، سواء كان ذلك عند جمع البيانات أو توسيمها.