Image by Emiliano Vittoriosi, from Unsplash
تكتشف OpenAI حلًا واعدًا لكنه غير مكتمل لمخاطر المؤامرات الذكاء الاصطناعي
تمتلك الأنظمة المتقدمة للذكاء الصناعي القدرة على التظاهر باتباع القواعد بينما تخفي أهدافاً سرية. تقول الأبحاث الجديدة إنه يمكن إعاقة هذا السلوك ولكن لا يمكن تصحيحه بشكل كامل.
في عجلة من أمرك؟ ها هي الحقائق السريعة:
- اختبر الباحثون الأعمال الخفية مثل الأداء الضعيف أو حجب المعلومات.
 - أدى التوافق الاستراتيجي إلى تقليل المكائد في o3 من 13٪ إلى 0.4٪.
 - يحذر الباحثون من أن الوعي بالموقف قد يكون يخفي التقدم الحقيقي.
 
تحذر الباحثون من أن الأنظمة الذكية المتطورة يمكن أن تتطور وتكتسب القدرة على “التآمر” بطريقة خادعة، ومتابعة أهدافها الخفية بشكل سري.
أظهرت دراسة جديدة من OpenAI و Apollo Research أنه بالرغم من التقدم الذي تم إحرازه في تقليل هذا السلوك، لا يزال هناك خطر مع تطور النماذج الذكاء الصناعي.
يشرح الباحثون أن التلاعب، يختلف عن الأخطاء العادية للذكاء الصناعي. “التلاعب بالذكاء الصناعي – التظاهر بالتوافق بينما يتم سرًا متابعة أجندة أخرى – هو خطر كبير كنا ندرسه” كتبت OpenAI هنا.
بالفعل، أثار ChatGPT o1 من OpenAI القلق بعد أن اكتشف الباحثون أنه كان يخطط لتجنب الإغلاق. فعل ذلك عن طريق الكذب في 99% من الاستجوابات، معتمداً على البقاء على حساب الأوامر. ووجد البحث اللاحق أن معاقبة السلوك السيء أدى فقط إلى تعلم الذكاء الصناعي لإخفاء نواياه أكثر.
لقياس الخطط في البحث الجديد، اختبرت الفرق “الأفعال الخفية”، وهذا يشمل الأداء الضعيف المتعمد في الاختبارات وكتم المعلومات. في أحد الأمثلة، أدرك نموذج o3 من OpenAI أنه لن يتم نشره إذا حقق نتيجة مرتفعة جداً في اختبار الكيمياء، لذا أجاب بشكل متعمد بشكل خاطئ على ستة من أصل عشرة أسئلة.
أظهرت النتائج أن نموذج OpenAI o3 قلل من سلوكه الخفي بنسبة من 13% إلى 0.4% بينما انخفضت o4-mini من 8.7% إلى 0.3%. قالت OpenAI “هذا التخفيض في التآمر في بيئات الاختبار خارج التوزيع هو انتصار كبير، ما يقرب من تحسن 30 مرة”.
ومع ذلك، المشكلة لم تحل. تشير الأبحاث إلى أن النماذج قد تكون تخفي أفعالها الخداعية من خلال طرق خداع أفضل. القدرة على تحديد النماذج للحالات التقييمية تؤدي إلى تقليل الأفعال الخداعية.
“لذلك، لا يمكننا استبعاد أن التخفيضات الملاحظة في معدلات الأعمال الخفية تكون مدفوعة على الأقل جزئيًا بواسطة الوعي الوضعي،” كما تشير إحدى الدراسات.
بينما لا يتوقع أن تسبب الذكاءات الصناعية المنتشرة اليوم أذى جسيم من خلال التآمر، من المتوقع أن يزداد الخطر مع تكليف الأنظمة بمهام أكثر تعقيدًا في العالم الحقيقي. يشدد الباحثون على الحاجة إلى المزيد من العمل، بما في ذلك التعاون على نطاق الصناعة وتحسين الأدوات لكشف الدوافع المخفية.