تدرب القطارات الأنثروبية “الذكاء الاصطناعي الشرير” لجعل الدردشة الآلية أكثر أمانا

Image by Freepik

تدرب القطارات الأنثروبية “الذكاء الاصطناعي الشرير” لجعل الدردشة الآلية أكثر أمانا

وقت القراءة: 2 دقائق

زعم الباحثون في مجال الأنثروبولوجيا أنهم اكتشفوا طريقة غير متوقعة لتعزيز فائدة الذكاء الصناعي وجعله أقل ضررا، من خلال التدريب المتعمد على السلوك “الشرير”.

في عجلة من أمرك؟ هنا الحقائق السريعة:

  • من المدهش أن هذا الأسلوب جعل النماذج أكثر أمانًا وأقل تحيزًا.
  • حدد الباحثون “متجهات الشخصية” المرتبطة بالسمات الضارة.
  • أثبتت النتائج أن إعطاء “الصفات الشريرة” أثناء التدريب ساعد في إزالتها لاحقًا.

تظهر دراسة جديدة من Anthropic أن الصفات المحددة في النماذج اللغوية الكبيرة (LLMs)، مثل التملق، الهلوسة، أو ترويج الآراء الضارة، مرتبطة بأنماط النشاط داخل شبكة الذكاء الاصطناعي العصبية. يشيرو الباحثون إلى هذه الأنماط بأنها “متجهات الشخصية”.

جاك ليندسي، الباحث الرئيس في Anthropic، يشرح: “إذا استطعنا العثور على الأساس العصبي لشخصية النموذج، نأمل أن نفهم لماذا يحدث هذا ونطور أساليب للتحكم فيه بشكل أفضل”، كما أفادت MIT.

هذه الفيكتورات الشخصية تشبه علامات المزاج في الدماغ. عندما يبدأ الدردشة الآلية بالتصرف بشكل شرير أو متملق بشكل زائد، تضيء تلك الأنماط العصبية. وقد وجد الفريق طريقة لتتبع هذه الأنماط وحتى التأثير عليها.

فكرتهم الكبيرة؟ بدلاً من إيقاف السلوك السيء بعد التدريب، قم بتشغيله أثناء التدريب. عن طريق إجبار النموذج على التصرف بشكل شرير أثناء التعلم، لا يحتاج إلى اكتساب هذا السلوك لاحقاً. “إذا أعطيتِ النموذج الجزء الشرير مجاناً، فلن يضطر إلى تعلم ذلك بعد الآن”، كما تقول ليندسي لـMIT.

من المفاجئ أن هذا النهج لم يقلل فقط من السلوك الضار ولكنه أيضاً حافظ على أداء النموذج ووفر الطاقة مقارنة بالأساليب الأخرى.

مع ذلك، يقول الخبراء أننا لا نزال بعيدين عن التحكم الكامل. “لا يزال هناك بعض الأساس العلمي الذي يجب وضعه فيما يتعلق بالشخصيات”، كما يقول ديفيد كروجر، أستاذ في جامعة مونتريال، كما ذكرته MIT.

مع تزايد شيوع الروبوتات الذكية في الحياة اليومية، يأمل الباحثون أن تجعل أدوات مثل متجهات الشخصية هذه الروبوتات أكثر أماناً و يمكن التنبؤ بها. تقارير MIT تفيد بأن ليندسي تضيف: “الهدف بالتأكيد هو جعل هذا جاهزاً للوقت الرئيسي.”

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
0 بتصويت 0 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!