الذكاء الصناعي في مجال الرعاية الصحية: معيار ستانفورد الجديد لقياس الأداء في العالم الحقيقي

Image by Irwan, from Unsplash

الذكاء الصناعي في مجال الرعاية الصحية: معيار ستانفورد الجديد لقياس الأداء في العالم الحقيقي

وقت القراءة: 3 دقائق

أجرى الباحثون في جامعة ستانفورد اختبارات افتراضية لأنظمة السجلات الصحية الإلكترونية باستخدام الذكاء الاصطناعي، والتي توضح كيف يمكن أن تساعد النماذج مثل Claude 3.5 الأطباء في المهام الصحية الروتينية.

في عجلة من أمرك؟ إليك الحقائق السريعة:

  • يمكن لوكلاء الذكاء الاصطناعي تنفيذ مهام مثل طلب الاختبارات ووصف الأدوية.
  • حقق Claude 3.5 Sonnet v2 أعلى معدل نجاح بنسبة 70%.
  • كافحت العديد من نماذج الذكاء الاصطناعي مع عمليات العمل المعقدة والتشغيل المتداخل للنظام.

يضع الباحثون في ستانفورد معايير تقييم جديدة لتحديد ما إذا كانت أنظمة الذكاء الصناعي قادرة على أداء المهام الطبية في العالم الحقيقي. وبينما أظهرت الذكاء الصناعي الإمكانيات للتطبيقات الطبية في مجالات مختلفة، يحذر الخبراء من أنها لا تزال بحاجة إلى مزيد من الاختبارات.

“أقنعني العمل على هذا المشروع بأن الذكاء الصناعي لن يحل محل الأطباء في أي وقت قريب”، قالت كاميرون بلاك، المؤلفة المشاركة والزميلة في المعلومات السريرية في رعاية الصحة في ستانفورد.

ومن أجل التحقيق في هذا، طور الفريق MedAgentBench، نظام السجل الصحي الإلكتروني الافتراضي، الذي تم بناؤه لتقييم كيف أدى عملاء الذكاء الصناعي في الإجراءات الطبية التي يقوم بها الأطباء يومياً.

من الجدير بالذكر أنه على عكس الدردشة الآلية، يمكن لوكلاء الذكاء الاصطناعي أن يعملوا بشكل ذاتي، معالجة المهام المعقدة والمتعددة الخطوات باستخدام بيانات المريض، وطلب الاختبارات، ووصف الأدوية.

“تقول الدردشة الآلية الأشياء. يمكن لوكلاء الذكاء الاصطناعي أن يقوموا بالأشياء”، كما قال جوناثان شين، أستاذ الطب المشارك وعلم البيانات الحيوية والمؤلف الأقدم. “وهذا يعني أنهم يمكنهم بشكل نظري استرجاع معلومات المريض مباشرة من السجل الطبي الإلكتروني، والتفكير في تلك المعلومات، واتخاذ الإجراءات عن طريق إدخال الأوامر مباشرة للفحوصات والأدوية. هذا هو شرط أعلى بكثير للذاتية في عالم الرعاية الطبية عالية المخاطر. نحن بحاجة إلى معيار لتحديد الحالة الحالية لقدرة الذكاء الاصطناعي على المهام القابلة للتكرار التي يمكننا التحسين نحوها”، أضاف شين.

من أجل اختبار النظام الافتراضي، حصل الباحثون على بيانات من ملفات 100 مريض، التي تراكمت لتصل إلى 785,000 سجل. ثانيًا، تم اختبار نحو عشرة من أنماذج اللغة الكبيرة (LLMs) على 300 مهمة سريرية.

أظهرت النتائج أن نموذج Claude 3.5 Sonnet v2 حقق نسبة نجاح تبلغ 70٪ كأفضل نموذج أداء، ومع ذلك فشل العديد من النماذج في التعامل مع تدفقات العمل المعقدة، بالإضافة إلى عمليات التكامل النظامية.

“نأمل أن يتمكن هذا المعيار من مساعدة مطوري النماذج على تتبع التقدم وتطوير قدرات الوكلاء بشكل أكبر”، هذا ما قالته ييشينغ جيانغ، الطالبة في الدكتوراه والمشاركة في تأليف الدراسة.

تتوقع الخبراء أن يتولى وكلاء الذكاء الاصطناعي الأعمال الإدارية السريرية الأساسية، على أمل أن يتم تقليل حالات الإرهاق التي يعاني منها الأطباء دون الاستغناء تمامًا عن الأطباء البشر في الممارسة العملية.

“أنا متحمسة لإيجاد حلول لحالات الإرهاق التي يعاني منها الأطباء”، قالت بلاك. “آمل أن يمكننا، من خلال العمل على تطبيقات الذكاء الاصطناعي الوكيل في مجال الرعاية الصحية التي تعزز قوتنا العاملة، أن نساعد في تخفيف العبء عن الأطباء وتحويل هذه الأزمة الوشيكة”، أضافت بلاك.

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
0 بتصويت 0 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!