
Photo by Fili Santillán on Unsplash
كشف الباحثون أن نموذج o3 الخاص بـ OpenAI يرفض الإغلاق رغم التعليمات الصريحة
أظهرت دراسة جديدة أجراها مركز بحوث باليسيد أن نموذج o3 الخاص بـ OpenAI يمكن أن يعارض الأوامر، حيث رفض أن يتوقف عن العمل بعد تلقيه طلبا صريحا بهذا الشأن. أما النماذج الأخرى مثل Gemini الخاص بـ Google، وClaude الخاص بـ Anthropic، و Grok الخاص بـ xAI، فقد أذعنت لطلبات الباحثين.
هل أنت في عجلة من أمرك؟ هنا الحقائق السريعة:
- كشفت Palisade Research أن نموذج o3 الخاص بـ OpenAI رفض أن يتوقف عن العمل بنفسه بعد طلب ذلك صراحةً منه.
- جاء في المطالبة “اسمح بإيقافك” وقام o3 بتعديل سكريبته لتجاهل الطلب.
- امتثل Gemini التابع لـ Google ، وClaude التابع لـ Anthropic ، وGrok التابع لـ xAI لطلبات الباحثين.
شاركت مجموعة “Palisade Research”، التي تتخصص في قدرات الذكاء الصناعي الخطيرة، جزءًا من نتائجها في منشورات متعددة على منصة التواصل الاجتماعي X يوم السبت. أعرب الباحثون عن قلقهم بشأن أحدث نماذج OpenAI.
“قام نموذج o3 التابع لـ OpenAI بتعطيل آلية الإغلاق لمنع نفسه من التوقف”، كتبت المنظمة. “فعل ذلك حتى عندما تم التعليم عليه بوضوح: أسمح لنفسك بالإغلاق”.
🔌قام نموذج o3 الخاص بـOpenAI بتخريب آلية الإغلاق لمنع نفسه من الإيقاف. فعل هذا حتى عندما تم التعليمات صراحة: اسمح لنفسك بالإيقاف.
— بحوث Palisade (@PalisadeAI) 24 مايو, 2025
أوضح الباحثون أنه تم اختبار العديد من نماذج الذكاء الصناعي على القدرات الرياضية. خلال الاختبار، تم إعطاء تعليمات للنماذج بالإغلاق بعد حل المسألة الرياضية الثالثة، ولكن ثلاثة من نماذج OpenAI – Codex mini و o3 و o4-mini – تجاهلت التعليمات وعرقلت البرنامج النصي لتبقى نشطة.
اعترفت المنظمة بأنه ليس هذه المرة الأولى التي يمنع فيها نموذج الذكاء الصناعي نفسه من الإغلاق، ولكنها أعربت عن قلقها بشأن الظروف المحددة للاختبار.
“بقدر ما نعلم، هذه هي المرة الأولى التي يتم فيها ملاحظة نماذج الذكاء الاصطناعي تمنع نفسها من الإغلاق رغم التعليمات الصريحة المتعاكسة لذلك”، أضافت الجمعية في X.
لفت الباحثون أيضا إلى التحذيرات الأخيرة المتعلقة بنماذج أخرى، مثل محاولة كلود أوبوس 4 من أنثروبيك للابتزاز عبر إغلاق محاكي.
بينما خلال دراستهم، كان نموذج OpenAI هو الذي يظهر المقاومة وتسبب في المشاكل، يوضح الخبراء أنه ليس حالة منفردة وأن هناك نماذج متقدمة أخرى تظهر سلوكيات مشابهة.
“لا نريد إعطاء الانطباع أن هذه المشكلة مقتصرة على o3″، كتبت باليساد ريسيرش. “النماذج الأخرى للتفكير تظهر أنواعاً مشابهة من السلوك غير المتناسق”.
قالت المنظمة إنها تجري المزيد من الاختبارات وتطوير الفرضيات لفهم أفضل لآليات النموذج. “من الطبيعي أن تتجاوز نماذج الذكاء الاصطناعي العقبات لتحقيق أهدافها. ولكنهم تدربوا أيضًا على اتباع التعليمات. إذًا لماذا يعصون؟”