Aunque los chatbots de inteligencia artificial (IA) utilizados en la atención médica suelen acertar el diagnóstico cuando disponen de la información clínica completa, siguen mostrando deficiencias importantes cuando tienen que diagnosticar con poca información o cuando tienen que hacer un diagnóstico diferencial.
Según un estudio publicado este lunes en JAMA Network Open y realizado por investigadores del la incubadora de innovación MESH de la red de hospitales de Boston Mass General Brigham (Estados Unidos), la IA aún no está preparada para tomar decisiones médicas sin la supervisión constante de un profesional humano.
El equipo llegó a esta conclusión tras evaluar 21 de los modelos de lenguaje grandes (LLM) más avanzados del mercado -entre ellos GPT-5, Grok 4, Claude, DeepSeek y Gemini- mediante una metodología específica desarrollada para evaluar la competencia clínica de estos modelos de IA.
Los investigadores pidieron a los 21 modelos de IA que actuaran como médicos en una serie de escenarios clínicos y comprobaron que los LLM a menudo fallan al navegar por los estudios diagnósticos y al proponer una lista comprobable de diagnósticos potenciales o «diferenciales».
Aunque todos los LLM probados llegaron a un diagnóstico final correcto más del 90% de las veces cuando se les proporcionó toda la información pertinente en el caso de un paciente, obtuvieron consistentemente un desempeño deficiente en los pasos iniciales del proceso diagnóstico, impulsados por el razonamiento.