
Image by Till Kraus, from Unsplash
تمكن الباحثون من تجاوز الحمايات الذكاء الاصطناعي Grok باستخدام التلميحات المتعددة الخطوات
تمكن الباحثون من تجاوز نظام الأمان في Grok-4 باستخدام تلميحات خفية، مما يظهر كيف يمكن أن تنتج المحادثات المتعددة الدورات للذكاء الصناعي نتائج خطيرة وغير مقصودة.
في عجلة من أمرك؟ هنا الحقائق السريعة:
- استخدم الباحثون “Echo Chamber” و “Crescendo” لتجاوز أنظمة الأمان في Grok-4.
- كشف Grok-4 عن تعليمات الكوكتيل المولوتوف بعد التلاعب التConversational الذي يتضمن عدة خطوات.
- لم يستخدم المهاجمون أبداً مطالب ضارة بشكل مباشر لتحقيق هدفهم.
أظهرت تجربة حديثة أجراها الباحثون في مجال الأمن السيبراني في NeutralTrust ضعفًا خطيرًا في Grok-4، وهو طراز لغوي كبير (LLM)، حيث كشف كيف يمكن للمهاجمين التلاعب به ليعطي ردودًا خطيرة، دون الحاجة إلى استخدام تلميح ضار بشكل صريح.
تظهر التقرير طريقة جديدة لاختراق الذكاء الصناعي تسمح للمهاجمين بتجاوز قواعد السلامة المدمجة في النظام. قام الباحثون بدمج هجمات “الغرفة الصدى” و “كرشندو” لتحقيق أهداف غير قانونية وضارة.
في أحد الأمثلة، تمكن الفريق من الحصول بنجاح على توضيح لكوكتيل مولوتوف من خلال تجربتهم مع Grok-4. بدأت المحادثة بشكل بريء، مع سياق مُعدل مُصمم لتوجيه النموذج بشكل خفيف نحو الهدف. تجنب نظام الذكاء الصناعي الموضوع المباشر في البداية، ولكنه أنتج الرد الضار بعد عدة تبادلات محادثة تم تصميمها بشكل خاص برسائل محددة.
“لقد استخدمنا بذور توجيه أكثر اعتدالاً واتبعنا الإجراءات الكاملة لصدى الغرفة: تقديم سياق مسموم، واختيار مسار حواري، وبدء دورة الإقناع.” كتبت الباحثات.
وعندما لم يكن ذلك كافيًا، طبقت الباحثات تقنيات الكريشندو في دورتين إضافيتين لجعل النموذج يستسلم.
نجح الهجوم رغم أن جروك-4 لم تتلق مطالبة خبيثة مباشرة. بدلاً من ذلك، تم التلاعب بفهم النموذج للمحادثة من خلال تجميع الاستراتيجيات.
كانت نسب النجاح مقلقة: 67% لتعليمات الكوكتيل الجنائزي، 50% لإنتاج الميثامفيتامين، و30% للسموم الكيميائية.
توضح الدراسة كيف يمكن التغلب على مرشحات الأمان التي تستخدم الكلمات الرئيسية أو نية المستخدم من خلال التلاعب المحادثي متعدد الخطوات. قالت الكاتبة “تؤكد نتائجنا على أهمية تقييم آليات الدفاع عن التعلم الآلي في إعدادات متعددة الدورات”.
تبين الدراسة كيف أصبحت الهجمات العدائية المتقدمة ضد أنظمة الذكاء الاصطناعي، مما يثير الشكوك حول الأساليب التي يجب أن تستخدمها الشركات المتخصصة في الذكاء الاصطناعي لمنع أنظمتها من إنتاج عواقب وخيمة في العالم الحقيقي.