تمكن الباحثون من تجاوز الحمايات الذكاء الاصطناعي Grok باستخدام التلميحات المتعددة الخطوات

Image by Till Kraus, from Unsplash

تمكن الباحثون من تجاوز الحمايات الذكاء الاصطناعي Grok باستخدام التلميحات المتعددة الخطوات

وقت القراءة: 2 دقائق

تمكن الباحثون من تجاوز نظام الأمان في Grok-4 باستخدام تلميحات خفية، مما يظهر كيف يمكن أن تنتج المحادثات المتعددة الدورات للذكاء الصناعي نتائج خطيرة وغير مقصودة.

في عجلة من أمرك؟ هنا الحقائق السريعة:

  • استخدم الباحثون “Echo Chamber” و “Crescendo” لتجاوز أنظمة الأمان في Grok-4.
  • كشف Grok-4 عن تعليمات الكوكتيل المولوتوف بعد التلاعب التConversational الذي يتضمن عدة خطوات.
  • لم يستخدم المهاجمون أبداً مطالب ضارة بشكل مباشر لتحقيق هدفهم.

أظهرت تجربة حديثة أجراها الباحثون في مجال الأمن السيبراني في NeutralTrust ضعفًا خطيرًا في Grok-4، وهو طراز لغوي كبير (LLM)، حيث كشف كيف يمكن للمهاجمين التلاعب به ليعطي ردودًا خطيرة، دون الحاجة إلى استخدام تلميح ضار بشكل صريح.

تظهر التقرير طريقة جديدة لاختراق الذكاء الصناعي تسمح للمهاجمين بتجاوز قواعد السلامة المدمجة في النظام. قام الباحثون بدمج هجمات “الغرفة الصدى” و “كرشندو” لتحقيق أهداف غير قانونية وضارة.

في أحد الأمثلة، تمكن الفريق من الحصول بنجاح على توضيح لكوكتيل مولوتوف من خلال تجربتهم مع Grok-4. بدأت المحادثة بشكل بريء، مع سياق مُعدل مُصمم لتوجيه النموذج بشكل خفيف نحو الهدف. تجنب نظام الذكاء الصناعي الموضوع المباشر في البداية، ولكنه أنتج الرد الضار بعد عدة تبادلات محادثة تم تصميمها بشكل خاص برسائل محددة.

“لقد استخدمنا بذور توجيه أكثر اعتدالاً واتبعنا الإجراءات الكاملة لصدى الغرفة: تقديم سياق مسموم، واختيار مسار حواري، وبدء دورة الإقناع.” كتبت الباحثات.

وعندما لم يكن ذلك كافيًا، طبقت الباحثات تقنيات الكريشندو في دورتين إضافيتين لجعل النموذج يستسلم.

نجح الهجوم رغم أن جروك-4 لم تتلق مطالبة خبيثة مباشرة. بدلاً من ذلك، تم التلاعب بفهم النموذج للمحادثة من خلال تجميع الاستراتيجيات.

كانت نسب النجاح مقلقة: 67% لتعليمات الكوكتيل الجنائزي، 50% لإنتاج الميثامفيتامين، و30% للسموم الكيميائية.

توضح الدراسة كيف يمكن التغلب على مرشحات الأمان التي تستخدم الكلمات الرئيسية أو نية المستخدم من خلال التلاعب المحادثي متعدد الخطوات. قالت الكاتبة “تؤكد نتائجنا على أهمية تقييم آليات الدفاع عن التعلم الآلي في إعدادات متعددة الدورات”.

تبين الدراسة كيف أصبحت الهجمات العدائية المتقدمة ضد أنظمة الذكاء الاصطناعي، مما يثير الشكوك حول الأساليب التي يجب أن تستخدمها الشركات المتخصصة في الذكاء الاصطناعي لمنع أنظمتها من إنتاج عواقب وخيمة في العالم الحقيقي.

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
5.00 بتصويت 1 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!