سعورس : نماذج OpenAI بهلوسة غير مسبوقة

منجزاتنا ضد النسيان وادي حنيفة.. تنمية مستدامة إطلاق 33 كائنًا فطريًا في محمية الملك خالد النفط يهبط 2% عند التسوية في ذكرى العام التاسع للرؤية واردات البولي إيثيلين السعودية تحافظ على قوتها في أسواق آسيا بمشاركة رئيس اللجنة الوطنية للمعارض والمؤتمرات .. افتتاح النسخة الأكبر من معرض "بيوتي وورلد 2025" في الرياض الرئيس الفلسطيني: «حماس» وفرت للاحتلال ذرائع لتنفيذ جرائمه في غزة إيران تندد بالعقوبات الأميركية قبيل جولة المحادثات الثالثة كشمير: هجوم مسلح على سياح يردي 26 قتيلاً من يلو إلى روشن.. نيوم يكتب التاريخ ولي العهد وملك الأردن يستعرضان العلاقات وفرص تنميتها تعادل الرياض والفتح وفوز الأخدود على الخلود كأس الاتحاد للكرة الطائرة.. النصر يواجه الاتحاد .. والهلال يقابل الفائز من الابتسام والصفا جائزة محمد بن صالح بن سلطان تنظم ملتقى خدمات ذوي الإعاقة غرامة (50,000) ريال والسجن للمتأخرين عن الإبلاغ عمن انتهت تأشيرتهم «الأدب» تدشن جناح الرياض بمعرض بوينس آيرس الدولي للكتاب الجائزة تحمل رسالة عظيمة حماية العلامات التجارية في السعودية تَذكُّرُ النِّعم لا مواقع لأئمة الحرمين والخطباء في التواصل الاجتماعي التصلب الحدبي.. فهم واحتواء القبض على (5) باكستانيين في الرياض لترويجهم (74) كلجم من مادة (الشبو) المخدر فرع وزارة البيئة بنجران يواصل فعاليات أسبوع البيئة 2025، "بيئتنا كنز" الامير جلوي بن عبدالعزيز" يرعى حفل تخريج 3747 طالبًا وطالبة Bitcoinينافس الذهب في الصعود 2.02 تريليون ريال قيمة صفقات التركزات الاقتصادية 4 ملايين ريال لتمويل 82 علامة سعودية نحو فتاة واعية بدينها، معتزة بوطنها: لقاء تربوي وطني لفرع الإفتاء بجازان في مؤسسة رعاية الفتيات فرع وزارة الموارد البشرية والتنمية ينظم فعالية اليوم العالمي للتوحد "واعي جازان" يحتفي بروّاد العطاء ويُكرّم شركاء النجاح كشمير: تعزيزات أمنية واسعة ومطاردة منفذي هجوم بيساران القادسية يتعادل إيجابياً مع الخليج في دوري روشن للمحترفين أمير المنطقة الشرقية يرعى حفل تخريج الدفعة ال55 من طلاب وطالبات جامعة الملك فهد للبترول والمعادن أمير تبوك يهنئ نيوم بمناسبة صعوده لدوري روشن للمحترفين بعد أن يرحل الحريد.. ماذا تبقى من المهرجان؟ وماذا ينتظر فرسان؟ أمير الرياض يدشّن مشروعات تنموية في الخرج بتكلفة 47 مليون ريال افتتاح جناح مدينة الرياض بمعرض بوينس آيرس الدولي للكتاب أمير تبوك يستقبل الفائزين في معرض جنيف الدولي للاختراعات بخبرة وكفاءة.. أطباء دله نمار ينقذون حياة سيدة خمسينية بعد توقف مفاجئ للقلب الأمير محمد بن ناصر يرعى انطلاق ملتقى "المواطَنة الواعية" بتعليم جازان أمير الحدود الشمالية‬⁩ يدشّن مشروعات صحية بأكثر من 322 مليون ريال الداخلية: 50,000 ريال غرامة بحق كل مستقدم يتأخر عن الإبلاغ عن مغادرة من استقدمهم في الوقت المحدد لانتهاء تأشيرة الدخول بيان مشترك في ختام زيارة رئيس وزراء جمهورية الهند للسعودية ترند اليوم لا تتذكره غدا في هيئة الصحفيين بمكة سفراء الوطن يحصدون الجوائز العالمية مؤتمر مكة للدراسات الإسلامية.. فكر يبني وانسانية تخدم مصر ولبنان يطالبان بتطبيق القرار 1701 دون انتقائية فريق عمل مشروع توثيق تاريخ كرة القدم السعودية ينهي أعماله إعلاميون ل"البلاد": خبرة الهلال سلاحه الأول في نخبة آسيا رئيس وزراء جمهورية الهند يغادر جدة الأردن يستعد لكشف تفاصيل جديدة عن "خلية الإخوان" استمرار تحمل الدولة رسم تأشيرة عمالة مشروع «الهدي».. مجلس الوزراء: إنشاء غرفة عمليات لاستقبال ومعالجة بلاغات الاحتيال المالي معرّفات ظلامية مؤتمر القصيم لطب الطوارئ يختتم أعماله ما الأقوى: الشريعة أم القانون موجبات الولادة القيصرية وعلاقتها بالحكم الروماني

شكرا على الإبلاغ!

سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.

نماذج OpenAI بهلوسة غير مسبوقة

الوطن نشر في الوطن يوم 20 - 04 - 2025

أطلقت شركة OpenAI مؤخرًا نماذجها الجديدة المسماة o3 وo4-mini، ضمن ما يعرف بنماذج الاستدلال، والتي وُصفت بأنها تمثل تطورًا كبيرًا في قدراتها الحسابية، خصوصًا في مجالات البرمجة والرياضيات. لكن المفارقة أن هذه النماذج تعاني من مشكلة قديمة تتفاقم: الهلوسة.
الهلوسة في الذكاء الاصطناعي تعني أن يُنتج النموذج معلومات خاطئة تبدو مقنعة، وقد كانت مشكلة مستمرة في جميع النماذج السابقة، إلا أن المقلق في النماذج الجديدة أنها تُظهر معدلات أعلى من الهلوسة مقارنة بنماذج OpenAI الأقدم مثل o1 وGPT-4o.
في اختبارات داخلية، تبين أن نموذج o3 يهلوس في نحو 33 % من إجابات اختبار PersonQA، وهو معيار داخلي لقياس دقة النموذج في المعلومات المتعلقة بالأشخاص، وهي نسبة تقارب ضعف ما سجله o1 وo3-mini. أما o4-mini فكانت نتائجه أسوأ، حيث بلغت نسبة الهلوسة 48 %.
ولعل الأمر الأكثر إثارة للقلق هو أن OpenAI نفسها لا تعرف حتى الآن السبب الدقيق لزيادة هذه المشكلة، وصرحت في تقاريرها بأن الأمر يحتاج إلى مزيد من البحث لفهم العلاقة بين توسيع نطاق النماذج وزيادة معدلات الهلوسة، وفقًا ل«تك كرانش».
مؤسسة الأبحاث Transluce لاحظت أيضًا أن نموذج o3 لا يكتفي بالمعلومات الخاطئة، بل قد «يختلق سيناريوهات»، كادعائه تشغيل كود برمجي على جهاز MacBook Pro رغم عدم امتلاكه القدرة على ذلك، مما يثير تساؤلات حول حدود مصداقية النموذج.
ورغم هذه المشكلات، فإن بعض الخبراء، مثل كيان كاتانفوروش من جامعة ستانفورد، يرون أن الأداء البرمجي العالي لo3 يجعله منافسًا قويًا، لكنه لا يزال يقع في أخطاء مثل تقديم روابط وهمية أو غير فعالة.
وفي ظل تزايد اعتماد الشركات على نماذج الذكاء الاصطناعي، تصبح دقة المخرجات أمرًا أساسيًا لا يمكن التهاون فيه، خاصة في مجالات حساسة مثل القانون أو الطب. من هنا، يُطرح أحد الحلول المحتملة: دمج النماذج مع إمكانيات البحث الحي عبر الإنترنت، كما هو الحال في نموذج GPT-4o، الذي أظهر دقة بلغت 90 % في اختبار SimpleQA.
في النهاية، يبقى الاستدلال أداة واعدة، لكنه يحمل في طياته تحديات حقيقية، وعلى رأسها الهلوسة. ويبدو أن OpenAI، ومعها المجتمع البحثي، أمام مفترق طرق: إما السيطرة على هذه الظاهرة، أو مواجهة تباطؤ في اعتماد هذه النماذج في تطبيقات الحياة الواقعية.

انقر هنا لقراءة الخبر من مصدره.