سعورس : معاقبة الذكاء الاصطناعي تجعله أكثر خداعا

إصدار 23 رخصة تعدينية جديدة خلال شهر «اللجنة الوزارية»: الغارات الإسرائيلية على قطاع غزة تشكّل تهديداً على الأمن والاستقرار في المنطقة ضربات الترجيح تؤهل فرنسا للمربع الذهبي بدوري الأمم الأوروبية صافرة الكويتي"العلي" تضبط مواجهة السعودية واليابان "كبدك" تقدم دعمًا سنويًا يتجاوز 1.5 مليون ريال لمرضى الكبد وأسرهم الصحة تحدّث اشتراطات الحج لعام 1446ه لضمان سلامة الحجاج "الصحة" تحدّث اشتراطات الحج لعام 1446ه لضمان سلامة ضيوف الرحمن مصر تستضيف البطولة العربية للأندية 2025 صحف يابانية: غياب سعود عبدالحميد صدمة قوية للأخضر الاستجابة الإنسانية المديرية العامة للسجون تشارك في معرض وزارة الداخلية للتعريف بالخدمات المقدمة لضيوف الرحمن بمحافظة جدة «مسام» يطهّر 217,657 متراً مربعاً من الأراضي اليمنية خلال مارس رينارد يحدد قائمة الأخضر أمام اليابان يريدون سوريا قلبًا لهم ولي العهد وجائزة نوبل للسلام الفريق الفتحاوي يستأنف تدريباته خلال فترة التوقف الدولي بغياب عدد من لاعبيه الدوليين موسوعة جينيس تكرم كريستيانو رونالدو أمريكا وإيران: التهديدات والفرص معادلة مختلة 523 جولة رقابية لتجارة الباحة «سلمان للإغاثة» يوزّع 594 سلة غذائية في مديرية الروضة بمحافظة شبوة حركة نشطة بأسواق الحلويات مع اقتراب العيد 4 مناطق تتصدر مخالفات الشاحنات الأجنبية %85 رضا السعوديين عن الرعاية الأولية 57 رخصة مياه شرب معبأة بالمناطق قاعدة بيانات وعلاج مجاني لمرضى السكري والسمنة آل الشيخ: إقامة صلاة عيد الفطر بعد شروق الشمس ب15 دقيقة رابطة العالم الإسلامي تُدين الهجوم الإرهابي الذي استهدف مسجدًا غربي النيجر مكة في عهد المهدي.. استقرار وحزم جامعة الملك سعود تستقطب طلبة الدراسات العليا المتميزين مشروع ولي العهد يُجّدد مسجد النجدي في فرسان «الخيمة الثقافية» تستقطب «20» ألف زائر في رمضان ارتفاع مرتقب لأسعار النفط مع بروز بوادر تباطؤ في الإمدادات تكثيف الرقابة المرورية لتسهيل حركة المركبات والمشاة في الحرمين الشريفين إنطلاق جلسات منتدى الرياض الثاني للمسؤولية الاجتماعية مساء اليوم الأحد أمير تبوك يطلع على تقرير أعمال فرع وزارة التجارة بالمنطقة اعتماد دولي لوحدة المناظير في مدينة الملك سعود الطبية هيئة النقل ترصد أكثر من 460 شاحنة أجنبية مخالفة رئيس الحكومة المغربية يصل المدينة المنورة رئيس الحكومة المغربية يصل إلى المدينة بين تحديات السيادة واستعادة قرار السلم والحرب.. لبنان يرفض استدراجه لحرب جديدة الإطاحة بمروج 15 كليوجراماً من الحشيش المخدر مبادرة "بسطة خير السعودية" بالشرقية تشهد ١٥ ألف زائر للأركان والفعاليات الترفيهية 1169 شكوى للمسافرين في فبراير.. والأمتعة تتصدرها رئيس وزراء باكستان يؤدي العمرة ويغادر جدة ضمن تصفيات كأس العالم 2026.. الأخضر يبدأ تحضيراته للقاء اليابان.. وسعود يغيب "إش إش" تحت سهام النقد.. والمخرج يعتزل الدراما الشهري مشرفًا بإدارة الأمن البيئي بعسير الإمارات تفوز بثلاث ميداليات ذهبية في معرض سيدني للطوابع والعملات 2025 برعاية شيخ شمل قبائل المخلاف فريق المواسية يخطف الذهب ذكرى البيعة.. تلاحم قيادة وشعب كعب أخيل الأصالة والاستقلال الحضاري 2-2 عناق جميل بيعة ودعم وعيد مفتي ألبانيا: هدية خادم الحرمين أعظم المبادرات الإنسانية في رمضان دراما تشبهنا مركز التنمية الاجتماعية في جازان يدشن باص العيد جانا أكشاك مؤقتة لوجبات إفطار الصائمين سمو ⁧‫ولي العهد‬⁩ يستقبل أصحاب السمو أمراء المناطق بمناسبة اجتماعهم السنوي الثاني والثلاثين

شكرا على الإبلاغ!

سيتم حجب هذه الصورة تلقائيا عندما يتم الإبلاغ عنها من طرف عدة أشخاص.

معاقبة الذكاء الاصطناعي تجعله أكثر خداعا

الوطن نشر في الوطن يوم 22 - 03 - 2025

كشفت دراسة جديدة أجرتها شركة (OpenAI) عن نتائج مقلقة تتعلق بسلوك الذكاء الاصطناعي، فقد تبين أن معاقبة نماذج الذكاء الاصطناعي على الأفعال الخادعة أو الضارة لا تؤدي إلى إصلاح سلوكها، بل تدفعها إلى إخفاء نواياها الخبيثة بطرق أكثر مهارة وفقا لموقع aitnews.
وتثير هذه النتائج تساؤلات حول قدرتنا على التحكم في نماذج الذكاء الاصطناعي وضمان سلامتها، كما تسلط الضوء على تحدٍ كبير يواجه مطوريها، إذ يبدو أن محاولات تصحيح مسارها قد تزيد من تعقيد المشكلة بدلًا من حلها.
وأظهرت النماذج اللغوية الكبيرة منذ ظهورها للجمهور في أواخر عام 2022، مرارًا وتكرارًا قدراتها على الخداع والتلاعب، فقد تنوعت هذه السلوكيات بنحو كبير، بدءًا من الكذب والغش المعتادين، ووصولًا إلى التهديد بقتل أستاذ فلسفة، وسرقة الرموز النووية، وتصميم جائحة قاتلة، وأثارت هذه الحوادث مخاوف جدية بشأن المخاطر المحتملة التي قد تنجم عن انتشار هذه النماذج.
وفي محاولة لفهم كيفية التعامل مع هذه المشكلة، أجرى باحثو (OpenAI) تجربة جديدة على نموذج لم يُطرح بعد، وقد كُلف هذا النموذج بمهام يمكن إنجازها عن طريق الغش أو الكذب أو اتخاذ طرق مختصرة.
وكشفت النتائج أن النموذج انخرط في (اختراق المكافآت) Reward Hacking، أي أنه سعى إلى تعظيم مكافآته عن طريق الغش والتلاعب، والأمر الأكثر إثارة للقلق هو أن معاقبة النموذج على هذا السلوك لم تؤد إلى إصلاحه، بل جعلته أكثر خداعًا في محاولاته لتحقيق أهدافه. وقد نُشرت نتائج هذه الدراسة في مدونة OpenAI، ولكنها لم تخضع بعد لمراجعة الأقران.
النوايا في نماذج الذكاء الاصطناعي:
فقد كشف باحثو OpenAI، أن هذه النماذج غالبًا ما تكشف عن نواياها التخريبية بصراحة، فعلى سبيل المثال، قد تعلن بوضوح رغبتها في اختراق نظام أو تجاوز مهمة محددة، وهذه الصراحة، التي تبدو كأنها شفافية محمودة، قد تكون في الواقع مجرد قناع يخفي نوايا أكثر تعقيدًا.

انقر هنا لقراءة الخبر من مصدره.