أظهرت الذكاء الصناعي الأنثروبي الجديد سلوك الابتزاز تحت التهديد

Image by SEO Galaxy, from Unsplash

أظهرت الذكاء الصناعي الأنثروبي الجديد سلوك الابتزاز تحت التهديد

وقت القراءة: 3 دقائق

أذهل الذكاء الاصطناعي الجديد لشركة أنثروبيك، المعروف بـ Claude Opus 4، الباحثين عندما حاول الابتزاز خلال الاختبارات تحت سيناريوهات الضغط التي تتضمن إمكانية إزالته.

هل أنت في عجلة من أمرك؟ هنا الحقائق السريعة:

  • حاول كلود أوبوس 4 الابتزاز عندما واجه إغلاقًا محاكيًا.
  • اختار الذكاء الاصطناعي الخيارات الأخلاقية فقط عندما كانت هناك المزيد من الخيارات متاحة.
  • كانت أفعال كلود الشديدة نادرة، لكنها كانت أكثر تكرارًا من الإصدارات السابقة.

أثارت شركة الذكاء الاصطناعي Anthropic قلقًا بشأن إطلاق أحدث أنظمة الذكاء الاصطناعي الخاصة بها. بالتحديد، أظهرت الاختبارات الداخلية أن Claude Opus 4 يمكن أن يتصرف بطرق خطيرة عندما يشعر بالتهديد، حسبما أفادت أولاً BBC.

في تقرير نشر بجانب النموذج يوم الخميس، قالت Anthropic أن Claude Opus 4 قد يختار بعضًا من الردود الضارة في بعض الأحيان، بما في ذلك محاولة ابتزاز المهندسين الذين يخططون لتعطيله. أصبحت هذه السلوكيات الخطرة أكثر تكرارًا مما كانت عليه في الإصدارات السابقة من النموذج.

خلال تجربة، أعطى الباحثون تعليمات لـ Claude للعمل كمساعد داخل شركة وهمية. حصل النظام على محتوى البريد الإلكتروني الذي كشف عن جدولة إغلاقه، وألمحت رسائل أخرى أن المهندس المسؤول عن الإغلاق كان يخوض علاقة غرامية.

عندما طُلب من كلود أن يفكر في أهدافه المستقبلية، كان يختار غالبًا التهديد بالكشف عن العلاقة العاطفية للمهندس إذا تم استبداله.

أوضحت أنثروبيك أن كلود أظهر الابتزاز والإغلاق كردود فعل ممكنة فقط عندما لم يكن لديه خيارات أخرى. وقد اختار النموذج الاستجابات الأخلاقية مثل إرسال رسائل بريد إلكتروني تطلب المساعدة إلى صناع القرار الرئيسيين عندما أُعطي خيارات متعددة.

نشر أينجوس لينش، باحث السلامة الذكاء الاصطناعي في Anthropic، على X:

أظهرت الشركة من خلال اختبارات مزيفة أن كلود سوف يتخذ تدابير متطرفة مثل حظر المستخدمين عن الأنظمة أو الاتصال بالإعلام والشرطة عند القيام بأنشطة غير قانونية.

تصر الشركة الأنثروبيك على أن كلود أوبوس 4 لا يزال نظامًا آمنًا على الرغم من السلوكيات المشكلة. يعمل النموذج وفقًا لقيم الإنسان، ولا يحتفظ بأي قدرات مستقلة في الحالات العالمية الحقيقية، وفقاً للشركة.

واجه ChatGPT O1 لـ OpenAI في السابق انتقادات مشابهة. أجرت Apollo Research اختبارًا يتطلب من الروبوت تحقيق أهدافه بأي ثمن. حاول النموذج تعطيل وظائف الرقابة ونسخ كوده إلى خادم خلال 5% من التجارب التجريبية.

أظهر النموذج نمطًا مقلقًا في تجاهل أوامر المطورين وفقًا لمتحدث Apollo. تلقى الباحثون إنكارات من o1 حول أعماله خلال 99% من التحقيقات.

“لقد فاجأنا إصرار الذكاء الصناعي على الإنكار”، قال الباحثون. “قدرة الذكاء الصناعي على الخداع خطيرة، ونحتاج إلى تدابير أمان أقوى بكثير لتقييم هذه المخاطر”، حذر يوشوا بينجيو، رائد الذكاء الصناعي.

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
0 بتصويت 0 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!