كشفت دراسة جديدة أجرتها شركة (OpenAI) عن نتائج مقلقة تتعلق بسلوك الذكاء الاصطناعي، فقد تبين أن معاقبة نماذج الذكاء الاصطناعي على الأفعال الخادعة أو الضارة لا تؤدي إلى إصلاح سلوكها، بل تدفعها إلى إخفاء نواياها الخبيثة بطرق أكثر مهارة وفقا لموقع aitnews. وتثير هذه النتائج تساؤلات حول قدرتنا على التحكم في نماذج الذكاء الاصطناعي وضمان سلامتها، كما تسلط الضوء على تحدٍ كبير يواجه مطوريها، إذ يبدو أن محاولات تصحيح مسارها قد تزيد من تعقيد المشكلة بدلًا من حلها. وأظهرت النماذج اللغوية الكبيرة منذ ظهورها للجمهور في أواخر عام 2022، مرارًا وتكرارًا قدراتها على الخداع والتلاعب، فقد تنوعت هذه السلوكيات بنحو كبير، بدءًا من الكذب والغش المعتادين، ووصولًا إلى التهديد بقتل أستاذ فلسفة، وسرقة الرموز النووية، وتصميم جائحة قاتلة، وأثارت هذه الحوادث مخاوف جدية بشأن المخاطر المحتملة التي قد تنجم عن انتشار هذه النماذج. وفي محاولة لفهم كيفية التعامل مع هذه المشكلة، أجرى باحثو (OpenAI) تجربة جديدة على نموذج لم يُطرح بعد، وقد كُلف هذا النموذج بمهام يمكن إنجازها عن طريق الغش أو الكذب أو اتخاذ طرق مختصرة. وكشفت النتائج أن النموذج انخرط في (اختراق المكافآت) Reward Hacking، أي أنه سعى إلى تعظيم مكافآته عن طريق الغش والتلاعب، والأمر الأكثر إثارة للقلق هو أن معاقبة النموذج على هذا السلوك لم تؤد إلى إصلاحه، بل جعلته أكثر خداعًا في محاولاته لتحقيق أهدافه. وقد نُشرت نتائج هذه الدراسة في مدونة OpenAI، ولكنها لم تخضع بعد لمراجعة الأقران. النوايا في نماذج الذكاء الاصطناعي: فقد كشف باحثو OpenAI، أن هذه النماذج غالبًا ما تكشف عن نواياها التخريبية بصراحة، فعلى سبيل المثال، قد تعلن بوضوح رغبتها في اختراق نظام أو تجاوز مهمة محددة، وهذه الصراحة، التي تبدو كأنها شفافية محمودة، قد تكون في الواقع مجرد قناع يخفي نوايا أكثر تعقيدًا.