
Image by Vecstoc, from Freepik
نموذج الذكاء الصناعي الجديد يتوقف عن استنساخ الصوت باستخدام “إلغاء تعلم الآلة”
قام الباحثون الكوريون الجنوبيون بتطوير طريقة جديدة لجعل مولدي الأصوات الذكاء الصناعي “ينسى” كيفية تقليد أصوات أشخاص معينين.
في عجلة من أمرك؟ ها هي الحقائق السريعة:
- تقلل الطريقة من دقة تقليد الصوت بأكثر من 75٪.
- الأصوات المسموح بها لا تزال تعمل، مع خسارة في الأداء تبلغ فقط 2.8٪.
- يحتاج النظام إلى 5 دقائق من الصوت لنسيان المتحدث.
تهدف نظام “إلغاء تعلم الآلة” إلى أن يكون حلاً لمنع سوء استخدام تقنيات استنساخ الصوت، التي يستخدمها المحتالون وصانعو الصور الوهمية العميقة.
تتطلب النماذج الحالية لتحويل النص إلى كلام بدون الحاجة لأي بيانات مسبقة (ZS-TTS) فقط بضع ثوان من الصوت لخلق تقليد واقعي لصوت أي شخص. قال جونغ هوان كو، أستاذ في جامعة سونغكيونكوان: “يمكن تكرار أو نسخ صوت أي شخص ببضع ثوان فقط من صوته”، كما ذكرت MIT Technology Review.
وهذا يفتح الباب لمخاوف خطيرة تتعلق بالخصوصية والأمان، مثل التنكر والاحتيال.
طور فريق البحث الذي يقوده كو نظام “التعلم بإرشاد المعلم” (TGU) كأول نظام يدرب نماذج الذكاء الاصطناعي على نسيان كيفية تكوين أصوات أشخاص معينين. يوضحون في ورقتهم البحثية أن هذه التقنية، بدلاً من حجب الطلبات بواسطة المرشحات (التي تسمى “الحواجز الواقية”)، تعدل في تخزين الذاكرة للذكاء الاصطناعي بحيث يصبح بيانات الصوت غير قابلة للوصول إلى النظام.
عندما يتم تحفيزه لإنتاج خطاب بصوت ما قد نسيه، يعيد النموذج المحدث للذكاء الاصطناعي صوتًا عشوائيًا بدلاً من ذلك. يؤكد الباحثون أن هذا العشوائية تثبت أن الصوت الأصلي تم محوه بنجاح. في الاختبارات، كان الذكاء الاصطناعي أقل دقة بنسبة 75% في تقليد الصوت المحذوف، بينما انخفضت الأداء للأصوات المسموح بها فقط بشكل طفيف (بنسبة 2.8%).
تتطلب الطريقة فقط خمس دقائق من التسجيلات الصوتية من كل متحدث لإتمام عمليتها. تظهر المرحلة المبكرة من التطوير وعدًا كبيرًا، وفقًا لآراء الخبراء. قالت Vaidehi Patil، طالبة الدكتوراه في UNC-Chapel Hill، كما أفادت MIT: “هذا أحد أول الأعمال التي رأيتها للكلام”.