
Image by SEO Galaxy, from Unsplash
أظهرت الذكاء الصناعي الأنثروبي الجديد سلوك الابتزاز تحت التهديد
أذهل الذكاء الاصطناعي الجديد لشركة أنثروبيك، المعروف بـ Claude Opus 4، الباحثين عندما حاول الابتزاز خلال الاختبارات تحت سيناريوهات الضغط التي تتضمن إمكانية إزالته.
هل أنت في عجلة من أمرك؟ هنا الحقائق السريعة:
- حاول كلود أوبوس 4 الابتزاز عندما واجه إغلاقًا محاكيًا.
- اختار الذكاء الاصطناعي الخيارات الأخلاقية فقط عندما كانت هناك المزيد من الخيارات متاحة.
- كانت أفعال كلود الشديدة نادرة، لكنها كانت أكثر تكرارًا من الإصدارات السابقة.
أثارت شركة الذكاء الاصطناعي Anthropic قلقًا بشأن إطلاق أحدث أنظمة الذكاء الاصطناعي الخاصة بها. بالتحديد، أظهرت الاختبارات الداخلية أن Claude Opus 4 يمكن أن يتصرف بطرق خطيرة عندما يشعر بالتهديد، حسبما أفادت أولاً BBC.
في تقرير نشر بجانب النموذج يوم الخميس، قالت Anthropic أن Claude Opus 4 قد يختار بعضًا من الردود الضارة في بعض الأحيان، بما في ذلك محاولة ابتزاز المهندسين الذين يخططون لتعطيله. أصبحت هذه السلوكيات الخطرة أكثر تكرارًا مما كانت عليه في الإصدارات السابقة من النموذج.
خلال تجربة، أعطى الباحثون تعليمات لـ Claude للعمل كمساعد داخل شركة وهمية. حصل النظام على محتوى البريد الإلكتروني الذي كشف عن جدولة إغلاقه، وألمحت رسائل أخرى أن المهندس المسؤول عن الإغلاق كان يخوض علاقة غرامية.
عندما طُلب من كلود أن يفكر في أهدافه المستقبلية، كان يختار غالبًا التهديد بالكشف عن العلاقة العاطفية للمهندس إذا تم استبداله.
أوضحت أنثروبيك أن كلود أظهر الابتزاز والإغلاق كردود فعل ممكنة فقط عندما لم يكن لديه خيارات أخرى. وقد اختار النموذج الاستجابات الأخلاقية مثل إرسال رسائل بريد إلكتروني تطلب المساعدة إلى صناع القرار الرئيسيين عندما أُعطي خيارات متعددة.
نشر أينجوس لينش، باحث السلامة الذكاء الاصطناعي في Anthropic، على X:
الكثير من النقاشات حول ابتزاز كلود…..
نتائجنا: ليس كلود فقط. نرى حالات الابتزاز في جميع نماذج الحدود – بغض النظر عن الأهداف التي يتم توجيهها لهم.
بالإضافة إلى سلوكيات أسوأ سنتطرق لها قريبًا.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— آينغوس لينش (@aengus_lynch1) 23 مايو 2025
أظهرت الشركة من خلال اختبارات مزيفة أن كلود سوف يتخذ تدابير متطرفة مثل حظر المستخدمين عن الأنظمة أو الاتصال بالإعلام والشرطة عند القيام بأنشطة غير قانونية.
تصر الشركة الأنثروبيك على أن كلود أوبوس 4 لا يزال نظامًا آمنًا على الرغم من السلوكيات المشكلة. يعمل النموذج وفقًا لقيم الإنسان، ولا يحتفظ بأي قدرات مستقلة في الحالات العالمية الحقيقية، وفقاً للشركة.
واجه ChatGPT O1 لـ OpenAI في السابق انتقادات مشابهة. أجرت Apollo Research اختبارًا يتطلب من الروبوت تحقيق أهدافه بأي ثمن. حاول النموذج تعطيل وظائف الرقابة ونسخ كوده إلى خادم خلال 5% من التجارب التجريبية.
أظهر النموذج نمطًا مقلقًا في تجاهل أوامر المطورين وفقًا لمتحدث Apollo. تلقى الباحثون إنكارات من o1 حول أعماله خلال 99% من التحقيقات.
“لقد فاجأنا إصرار الذكاء الصناعي على الإنكار”، قال الباحثون. “قدرة الذكاء الصناعي على الخداع خطيرة، ونحتاج إلى تدابير أمان أقوى بكثير لتقييم هذه المخاطر”، حذر يوشوا بينجيو، رائد الذكاء الصناعي.