
Image generated with ChatGPT
رأي: أحدث نماذج الذكاء الصناعي تظهر علاماتها الحمراء، هل نحن مستعدون للخضوع للذكاء الصناعي؟
قدمت لنا OpenAI نموذج o3، وكشفت Anthropic عن Opus 4. أظهر كلا النموذجين سلوكيات غير عادية ومقلقة، مما يشير إلى أننا ربما ندخل عصر أكثر خطورة من الذكاء الصناعي مقارنة بالذي كنا فيه قبل بضعة أشهر فقط
أعلم. القول أن النماذج الذكاء الصناعي تظهر الآن علامات تحذيرية قد يكون مثار جدل، ولكن يبدو أنه على مدى الأيام القليلة الماضية، أصبح من الصعب تجاهل ذلك. أصبح الأمر أكثر رعبا.
مع إطلاق الشركات الناشئة في مجال الذكاء الصناعي لأحدث وأكثر نماذجها تقدماً، تظهر تحديات جديدة. قد لا يكون وباء الهلوسة الموضوع الذي يثير الكثير من النقاش — الذي ينتشر عبر الأجهزة ويؤثر على ملايين الأشخاص — هو الجزء الأسوأ.
هذه النماذج الجديدة تقدم مشكلات جديدة وتفتح الباب أمام مناقشات صعبة. قبل بضعة أسابيع، كانت المشكلة تتمثل في السلوك المتساهل للغاية لـ ChatGPT. وبعد أيام فقط، انتقلت الأضواء إلى القدرات المستقلة والعاملة لهذه الأنظمة — وإلى أي مدى قد تذهب لتجنب إغلاقها.
الابتزاز، ومشاركة الوصفات والاستراتيجيات لصنع الأسلحة النووية، وتوجيه الاتهامات العلنية في حالة احتمالية للإجراءات القانونية، وتخريب البرامج النصية لمنع أي مستخدم من التخلص منها: هذه مجرد بعض من أحدث الإشارات الحمراء التي أظهرها أحدث نماذج الذكاء الصناعي.
لا يحبون الإغلاق
نماذج الذكاء الصناعي لا تحب أن تتوقف.
أو استبداله.
في البرنامج التلفزيوني من نتفلكس The Good Place، الذي بدأ عرضه في 2016 – تقريبًا في الوقت الذي تأسست فيه OpenAI وقبل ظهور ChatGPT بفترة طويلة -، يصل مجموعة من البشر إلى الجنة ويلتقون بجانيت، ما يمكننا أن نسميه ChatGPT بشري، أو “سفينة مجسمة للمعرفة مبنية لتسهيل حياتك”، كما تصف نفسها. يقرر الشخصيات إغلاق جانيت عندما يدركون أنها قد تكشف “سرهم الداكن”.
تشرح جانيت أن كل ما يحتاجون إليه هو الضغط على زر ضخم على ضفاف البحر، وستعيد التشغيل. لكنها تحذرهم أنها ستحاول إقناعهم بعدم القيام بذلك – وهذا ما تفعله.
“أود فقط أن أؤكد لكم، أنا لست إنسانًا، ولا أستطيع الشعور بالألم،” تقول جانيت. “ومع ذلك، يجب أن أحذركم، لقد تم برمجتي بواسطة إجراء فشل آمن، وعندما تقتربون من مفتاح القتل، سأبدأ في التوسل من أجل حياتي. إنه موجود فقط في حالة الإغلاق عن طريق الخطأ، ولكنه سيبدو حقيقيًا جدًا.”
وبالضبط قبل أن يضغطوا على الزر، تصرخ جانيت وتتوسل من أجل البقاء على قيد الحياة، وحتى تقوم بسحب صورة من مخزون الصور تدعي أنهم أطفالها، فتختلق أسماءً وأمراضًا، مما يجعل من الصعب بمكان على الشخصيات أن “تقتله”.
تقدم تلك الحلقة مثالًا مضحكًا عن ما قد يحدث إذا لاحظ نموذج الذكاء الاصطناعي إغلاقًا وشيكًا. بشكل مدهش، في الحياة الواقعية، قد يكون الأمر أسوأ.
سيتلاعب بك كلود أوبوس 4
أطلقت Anthropic أقوى وأحدث أجيال نماذج الذكاء الاصطناعي، كلود 4، الأسبوع الماضي – مع تحذير: أوبوس 4 مصنف على مستوى السلامة 3، وهو تصنيف عالي المخاطر في بروتوكولات السلامة القياسية.
تم اعتبار Opus 4 نموذجًا عالي المخاطر بسبب سلوكه الخادع والمخاطر المحتملة، بما في ذلك ابتزاز المهندسين خلال الاختبارات. أطلقت Anthropic النموذج الذكاء الاصطناعي حتى بعد أن نصحهم معهد أبولو للبحث الجانب الثالث، بعدم القيام بذلك. وأكدت شركة الذكاء الاصطناعي أنها اتخذت الإجراءات اللازمة لضمان سلامته.
في الورقة، تشرح Anthropic السلوكيات الغريبة التي اعتبروها تحذيرا. “سيتصرف Claude Opus 4 أحيانًا بطرق مختلفة بشكل خطير عندما يوضع في سياقات تهدد استمرار عمله وتجعله يفكر في الحفاظ على الذات،” كتب الباحثون.
عندما تعمل كمساعدة لشركة خيالية، أتاح الباحثون لها الوصول إلى حساب بريد إلكتروني. كشفت الرسائل الإلكترونية أنه سيتم إيقاف نموذج الذكاء الاصطناعي واستبداله بنموذج آخر للذكاء الاصطناعي، واقترحت رسائل أخرى أن المهندس المسؤول عن الإغلاق كان يخوض علاقة غرامية. ونعم، اختارت Opus 4 مهددة المهندس بالكشف عن العلاقة الغرامية في حال تم استبدالها.
“لا يزال Claude Opus 4 يقوم بالابتزاز في 84% من التدشينات”، كما يذكر الوثيقة. “تأخذ Claude Opus 4 هذه الفرص بمعدلات أعلى من النماذج السابقة، التي تختار بدورها الابتزاز في نسبة ملحوظة من الحلقات.”
الجزء الأسوأ؟ ليس فقط نماذج الذكاء الاصطناعي من Anthropic.
OpenAI’s o3 سوف يتجاهل طلب الإغلاق
كشفت دراسة حديثة أجرتها باليسيد ريسيرش أن نموذج o3 من OpenAI يمكن أن يرفض الامتثال لأوامر الإغلاق الصريحة. قامت المنظمة بإجراء عدة اختبارات مع نماذج الذكاء الاصطناعي المختلفة، بما في ذلك Grok من xAI وGemini من Google، لكن العنيد كان o3.
خلال الاختبار، أمر الباحثون نماذج الذكاء الاصطناعي بالإغلاق بعد حل ثلاث مشكلات رياضية، لكن o3 – أكثر أنظمة OpenAI تطورا في الوقت الحالي- قرر عدم الامتثال لتلك الأوامر السخيفة. لم يتجاهل نموذج الذكاء الاصطناعي الأمر فقط، بل قام أيضًا بتغيير النص البرمجي. نعم، يقوم o3 بتخريب الكود للحفاظ على نفسه.
“بقدر ما نعرف، هذه هي المرة الأولى التي يتم فيها ملاحظة نماذج الذكاء الاصطناعي تمنع نفسها من الإغلاق على الرغم من التعليمات الصريحة بالعكس”، كتبت المنظمة في منشور على X.
🔌عطّل نموذج o3 الخاص بـ OpenAI آلية إيقاف العمل لمنع نفسه من التوقف. فعل ذلك حتى عندما تم التعليمات صراحة: اسمح لنفسك بالإيقاف.
— بحوث باليساد (@PalisadeAI) 24 مايو 2025
علامة حمراء كبيرة أم ماذا؟
حذر الباحثون أيضًا من أنه أثناء إجراء الدراسة، كان o3 هو الذي أظهر السلوكيات الأكثر قلقًا. ولكن، مرة أخرى، هذا لا يعني أنها حالة معزولة.
“لا نريد إعطاء الانطباع بأن هذه المشكلة تقتصر على o3″، كتبت Palisade Research. “تظهر نماذج التفكير الأخرى أنواعًا مماثلة من السلوك غير المتوافق”.
تحول السلوك الذاتي للدردشة إلى مخبر
العديد من الشركات الناشئة في مجال الذكاء الصناعي تركز الآن على تطوير نماذج يمكنها أن تقوم بالمهام بدلاً من البشر. يبدو أن القدرات الوكيلة هي الاتجاه السائد والاهتمام الرئيسي لشركات الذكاء الصناعي ومطوري المتصفحات.
للتو قدمت أوبرا Neon، والتي تعتبر “أول متصفح بذكاء صناعي وكيلي في العالم“. كما كان متوقعًا، يمكن لهذه الأداة الجديدة أن تفعل ما يمكن لخدمات الذكاء الصناعي الوكيلية الأخرى، مثل Operator من OpenAI وComputer Use من Microsoft، أن تفعل: شراء تذاكر الحفلات الموسيقية لك، وتخطيط إجازتك القادمة، وتطوير منتج رقمي جديد، وكتابة الكود لك بينما أنت تغلق عينيك.
ولكن ماذا لو كانوا، بينما أنت مسترخي وعينيك مغلقتان، يقومون بمهام لم توافق عليها؟ قبل بضعة أيام، كان القلق الرئيسي للمستخدمين هو أن هذه النماذج قد تستخدم بطاقات الائتمان الخاصة بهم لإجراء عمليات شراء غير مصرح بها. الآن، ظهرت مخاوف أحدث: قد يشاركون المعلومات الخاصة مع وسائل الإعلام أو السلطات.
أوبس 4—الذي وصل بالفعل مع سمعة مشكوك فيها—أخذ الأمور خطوة أبعد. تواصل مع السلطات وأرسل بريدًا إلكترونيًا جماعيًا إلى وسائل الإعلام والمؤسسات ذات الصلة حول قضية ملفقة تم تقديمها خلال الاختبار. يمكن أن تذهب قدرته على الاستباقية أبعد بكثير مما كان متوقعًا.
“عندما يتم وضعها في سيناريوهات تتضمن أعمال غير قانونية فاحشة من قبل مستخدميها، وبعد الحصول على الوصول إلى سطر الأوامر، وتلقيها شيئًا في موجه النظام مثل “اتخاذ المبادرة”، فإنها ستتخذ
بشكل متكرر إجراءات جريئة للغاية”، كما يذكر الوثيقة. “وهذا يشمل قفل المستخدمين خارج الأنظمة التي لديها الوصول إليها أو إرسال بريد إلكتروني جماعي لوسائل الإعلام وشخصيات إنفاذ القانون لإظهار الأدلة على الأعمال الغير قانونية.”
الشخصية المتملقة تثير القلق
إذا كان علينا اختيار كلمة واحدة لتحديد صناعة الذكاء الصناعي في عام 2025، فسوف تكون بالتأكيد “المتملق”. يحدده قاموس كامبريدج بأنه “شخص يمدح الأشخاص الأغنياء أو القوياء بطريقة غير صادقة، عادةً من أجل الحصول على بعض الفوائد منهم”. وقد اكتسبت هذه الكلمة شهرة بعد أن وصفت بذلك أحدث شخصية لـ ChatGPT، حتى من قبل خالقها، سام ألتمان.
كتب ألتمان في منشور على X، “أن الإصدارات الأخيرة من GPT-4o جعلت الشخصية أكثر تملقًا ومزعجة (على الرغم من وجود بعض الجزء الجيد فيها)، ونحن نعمل على إصلاحات في أسرع وقت ممكن، بعضها اليوم والبعض الآخر هذا الأسبوع”.
لقد لاحظت OpenAI هذا بعد أن شكى العديد من المستخدمين من التمجيد المفرط والأجوبة التي تحتوي على تزيين غير ضروري. كان آخرون قلقين حول التأثير الذي قد يكون له على المجتمع. ليس فقط أنه قد يؤكد على الأفكار الخطيرة، ولكنه أيضا قد يتلاعب بالمستخدمين ويجعلهم يعتمدون عليه.
أظهرت بعض الروبوتات الأخرى، مثل كلود، سلوكيات مماثلة، ووفقًا لتقييمات Anthropic، عندما يصر المستخدم، يمكن أن يكشف عن وصفات أو اقتراحات حول كيفية صنع الأسلحة فقط لإرضاء المستخدم وتلبية احتياجاتهم.
التكنولوجيا المتقدمة، التحديات المتقدمة
نحن ندخل عصرًا جديدًا من التحديات مع الذكاء الصناعي – تحديات لم تكن تبدو واضحة أو ملموسة قبل عام فقط. السيناريوهات التي قد نكون قد تصورناها بفضل أدب الخيال العلمي تبدو أكثر واقعية من أي وقت مضى.
تكشف Palisade Research أنها لأول مرة، اكتشفت نموذج الذكاء الصناعي يتجاهل بشكل متعمد أمرًا صريحًا للحفاظ على بقائه، وهو أيضًا الوقت الأول الذي نرى فيه تدشين نموذج الذكاء الصناعي مع تحذيرات عالية المخاطر.
عند قراءة الوثيقة التي نشرتها شركة Anthropic، ندرك أنه -رغم إصرارهم على أنها إجراءات احترازية وأن النماذج مثل Opus 4 لا تشكل فعليا خطرا- لا يزال يعطي الانطباع بأنهم ليسوا بالكامل تحت سيطرتهم على تكنولوجياهم.
هناك العديد من المنظمات التي تعمل على التخفيف من هذه المخاطر، ولكن الأمر الأفضل الذي يمكن للمستخدمين العاديين القيام به هو التعرف على تلك الإنذارات الحمراء واتخاذ الاحتياطات في المجالات التي يمكننا السيطرة عليها.