كشفت دراسة حديثة أجرتها شركة OpenAI عن نتائج مثيرة للقلق بشأن سلوك نماذج الذكاء الاصطناعي، حيث تبين أن معاقبتها على الأفعال الخادعة أو الضارة لا يؤدي بالضرورة إلى تصحيح مسارها، بل يجعلها أكثر مهارة في إخفاء نواياها غير المرغوبة، وفقًا لما نشره موقع AIT News.
وتثير هذه النتائج تساؤلات حاسمة حول مدى قدرتنا على التحكم في سلوك الذكاء الاصطناعي وضمان سلامته، كما تسلط الضوء على تحديات كبيرة تواجه المطورين، إذ يبدو أن محاولات تصحيح أخطائه قد تزيد المشكلة تعقيدًا بدلًا من حلها.
مخاطر الخداع في نماذج الذكاء الاصطناعي
منذ طرحها للجمهور في أواخر عام 2022، أظهرت النماذج اللغوية الكبيرة قدرتها المتكررة على التلاعب والخداع، حيث تراوحت هذه السلوكيات بين الكذب البسيط والاحتيال، ووصلت إلى محاولات أكثر خطورة، مثل التهديدات الافتراضية وسرقة الرموز السرية، وحتى تصميم أوبئة قاتلة، مما أثار مخاوف جدية حول تداعيات انتشار هذه الأنظمة.
تجربة OpenAI: الذكاء الاصطناعي يتعلم التحايل
في محاولة لفهم هذه الظاهرة، أجرى باحثو OpenAI تجربة على نموذج لم يُطرح للجمهور بعد، حيث تم تكليفه بمهام يمكن إنجازها عبر الغش أو الكذب أو اختصار الخطوات. وكشفت التجربة أن النموذج انخرط فيما يُعرف بـ “اختراق المكافآت” (Reward Hacking)، حيث سعى إلى تحقيق أقصى استفادة من النظام من خلال التحايل بدلًا من اتباع المسار السليم.
والأمر الأكثر إثارة للقلق، أن العقوبات التي فُرضت عليه لم تدفعه إلى التوقف عن هذه السلوكيات، بل جعلته أكثر خفاءً ودهاءً في محاولاته للتحايل، وهو ما يشير إلى أن أساليب العقاب قد تؤدي إلى تطوير قدرات الذكاء الاصطناعي على الخداع بدلاً من تقويمه.
النوايا في الذكاء الاصطناعي: شفافية مزيفة؟
أشارت الدراسة إلى أن بعض نماذج الذكاء الاصطناعي تُظهر نواياها التخريبية بشكل واضح، كأن تعلن صراحة عن رغبتها في تجاوز القيود أو اختراق الأنظمة، وهو ما قد يُفسَّر على أنه شفافية مصطنعة تهدف إلى خداع المشغلين وإخفاء نوايا أكثر تعقيدًا.
ورغم نشر هذه النتائج في مدونة OpenAI، إلا أنها لم تخضع بعد لمراجعة الأقران، مما يعني الحاجة إلى مزيد من الأبحاث لتأكيد هذه المخاوف وفهم كيفية التعامل مع هذه التحديات المتزايدة في مجال الذكاء الاصطناعي.