أطلقت شركة OpenAI مؤخرًا نماذجها الجديدة المسماة o3 وo4-mini، ضمن ما يعرف بنماذج الاستدلال، والتي وُصفت بأنها تمثل تطورًا كبيرًا في قدراتها الحسابية، خصوصًا في مجالات البرمجة والرياضيات. لكن المفارقة أن هذه النماذج تعاني من مشكلة قديمة تتفاقم: الهلوسة. الهلوسة في الذكاء الاصطناعي تعني أن يُنتج النموذج معلومات خاطئة تبدو مقنعة، وقد كانت مشكلة مستمرة في جميع النماذج السابقة، إلا أن المقلق في النماذج الجديدة أنها تُظهر معدلات أعلى من الهلوسة مقارنة بنماذج OpenAI الأقدم مثل o1 وGPT-4o. في اختبارات داخلية، تبين أن نموذج o3 يهلوس في نحو 33 % من إجابات اختبار PersonQA، وهو معيار داخلي لقياس دقة النموذج في المعلومات المتعلقة بالأشخاص، وهي نسبة تقارب ضعف ما سجله o1 وo3-mini. أما o4-mini فكانت نتائجه أسوأ، حيث بلغت نسبة الهلوسة 48 %. ولعل الأمر الأكثر إثارة للقلق هو أن OpenAI نفسها لا تعرف حتى الآن السبب الدقيق لزيادة هذه المشكلة، وصرحت في تقاريرها بأن الأمر يحتاج إلى مزيد من البحث لفهم العلاقة بين توسيع نطاق النماذج وزيادة معدلات الهلوسة، وفقًا ل«تك كرانش». مؤسسة الأبحاث Transluce لاحظت أيضًا أن نموذج o3 لا يكتفي بالمعلومات الخاطئة، بل قد «يختلق سيناريوهات»، كادعائه تشغيل كود برمجي على جهاز MacBook Pro رغم عدم امتلاكه القدرة على ذلك، مما يثير تساؤلات حول حدود مصداقية النموذج. ورغم هذه المشكلات، فإن بعض الخبراء، مثل كيان كاتانفوروش من جامعة ستانفورد، يرون أن الأداء البرمجي العالي لo3 يجعله منافسًا قويًا، لكنه لا يزال يقع في أخطاء مثل تقديم روابط وهمية أو غير فعالة. وفي ظل تزايد اعتماد الشركات على نماذج الذكاء الاصطناعي، تصبح دقة المخرجات أمرًا أساسيًا لا يمكن التهاون فيه، خاصة في مجالات حساسة مثل القانون أو الطب. من هنا، يُطرح أحد الحلول المحتملة: دمج النماذج مع إمكانيات البحث الحي عبر الإنترنت، كما هو الحال في نموذج GPT-4o، الذي أظهر دقة بلغت 90 % في اختبار SimpleQA. في النهاية، يبقى الاستدلال أداة واعدة، لكنه يحمل في طياته تحديات حقيقية، وعلى رأسها الهلوسة. ويبدو أن OpenAI، ومعها المجتمع البحثي، أمام مفترق طرق: إما السيطرة على هذه الظاهرة، أو مواجهة تباطؤ في اعتماد هذه النماذج في تطبيقات الحياة الواقعية.