Image by Emilinao Vittoriosi, from Unsplash

يمكن الآن لنماذج الذكاء الصناعي الجديدة من OpenAI “التفكير” مع الصور

وقت القراءة: 3 دقائق

نُشر أولًا في: Apr 17, 2025

تم التحديث 2 مرات منذ النشر

كتبه كيارا فابري كاتبة أخبار التكنولوجيا سابقًا
ترجمة فريق الترجمة والتوطين خدمات الترجمة والتوطين

أطلقت OpenAI نماذج o3 و o4-mini المتقدمة للذكاء الصناعي، التي تجمع بين معالجة الصور والتفكير القائم على النص لحل المشكلات المعقدة.

في عجلة من أمرك؟ هنا هي الحقائق السريعة:

تعدل هذه النماذج وتقص وتحول الصور لحل المهام المعقدة.
يتفوق o3 وo4-mini على النماذج السابقة في أسئلة STEM، والبحث البصري، وقراءة الرسوم البيانية.
تجمع النماذج بين معالجة النصوص والصور، باستخدام أدوات مثل البحث على الويب وتحليل الكود.

أعلنت OpenAI عن نماذجين جديدتين للذكاء الاصطناعي، o3 و o4-mini، يمكنهما التفكير بالصور – مما يشكل قفزة كبيرة في كيفية فهم ومعالجة الذكاء الاصطناعي للمعلومات البصرية.

“يمكن لهذه الأنظمة التلاعب والقص وتحويل الصور لخدمة المهمة التي ترغب في القيام بها”، قال مارك تشن، رئيس البحث في OpenAI، خلال حدث بث مباشر يوم الأربعاء، كما أفادته صحيفة نيويورك تايمز.

أصبح لدى نماذج o3 و o4-mini القدرة الآن على تحليل الصور كجزء من عملية التفكير الداخلية لها، بينما كانت النماذج السابقة تستطيع فقط رؤية الصور.

تتيح النظام للمستخدمين تحميل صور لمشكلات الرياضيات، الرسوم البيانية التقنية، الملاحظات المكتوبة بخط اليد، الملصقات، والصور غير الواضحة أو المدارة. سيقوم بتفكيك المحتوى إلى شروحات خطوة بخطوة، بغض النظر عن وجود أسئلة متعددة أو عناصر بصرية في صورة واحدة.

يمكن للنظام الآن التركيز على الأجزاء غير الواضحة من الصورة، وتدويرها لفهم أفضل. يجمع بين الفهم البصري والمنطق النصي لتقديم إجابات دقيقة. يمكن للنظام تفسير الرسوم البيانية العلمية لشرح معناها وتحديد أخطاء البرمجة في لقطات الشاشة لإنشاء حلول.

يمكن للنماذج أيضًا استخدام أدوات أخرى مثل البحث على الويب، وكود Python، وتوليد الصور في الوقت الفعلي، مما يتيح لهم حل مهام أكثر تعقيدًا من ذي قبل. تقول OpenAI إن هذه القدرات مدمجة بشكل فعلي، دون الحاجة إلى نماذج متخصصة إضافية.

تظهر الاختبارات أن الطرازين o3 و o4-mini يتفوقان على النماذج السابقة في جميع المهام البصرية التي تم تكليفهما بها. يظهر المعيار المعروف بـ V*، أن الدقة التي يحققها الطراز o3 تصل إلى 95.7%. ومع ذلك، لا تزال هناك بعض العيوب في النماذج، حيث تشير OpenAI إلى أنها يمكن أن تنتج أخطاء في التفكير المفرط وأخطاء الإدراك الأساسية.

قدمت OpenAI هذا التحديث كجزء من مبادرتها لتطوير أنظمة الذكاء الصناعي التي تعتمد على سبل التفكير مشابهة للبشر. تحتاج النماذج إلى تسلسلات فكرية مكثفة للعمل، مما يعني أنها تحتاج إلى وقت إضافي للتعامل مع الأسئلة المعقدة. كما تدمج الأدوات مثل إنشاء الصور، والبحث على الويب، وتحليل الكود بلغة Python لتقديم إجابات أكثر دقة وإبداعا.

ومع ذلك، هناك حدود. أحيانًا تعالج النماذج كميات مفرطة من المعلومات، وتقع في أخطاء الإدراك، وتغير أساليب التفكير لديها بين المحاولات. تعمل الشركة على تحسين قدرة النماذج على الاعتماد والثبات.

كلاهما o3 و o4-mini متوفرين الآن لمستخدمي ChatGPT Plus (بسعر 20 دولارًا شهرياً) و Pro (بسعر 200 دولارًا شهرياً). أطلقت OpenAI أيضًا Codex CLI، وهي أداة مفتوحة المصدر جديدة لمساعدة المطورين على تشغيل هذه النماذج الذكاء الاصطناعي بجانب الشيفرة الخاصة بهم.

بينما تواجه OpenAI تحديات قانونية بخصوص استخدام المحتوى، تظهر تقنيتها في الاستدلال البصري كيف أن الذكاء الصناعي يقترب أكثر من حل المشكلات العملية في العالم بطرق أكثر شبهاً بالإنسان.

يمكن الآن لنماذج الذكاء الصناعي الجديدة من OpenAI “التفكير” مع الصور

يسعدنا أن عملنا أعجبك!