Se han promocionado herramientas de inteligencia artificial como ChatGPT por su promesa de aliviar la carga de trabajo de los médicos al clasificar a los pacientes, tomar historias clínicas e incluso proporcionar diagnósticos preliminares.
Los pacientes ya están utilizando estas herramientas, conocidas como modelos de lenguaje grande, para comprender sus síntomas y los resultados de sus pruebas médicas .
Pero si bien estos modelos de IA funcionan de manera impresionante en pruebas médicas estandarizadas, ¿qué tan bien se desempeñan en situaciones que imitan más de cerca el mundo real?
No es tan bueno, según los hallazgos de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford.
Para su análisis, publicado el 2 de enero en Nature Medicine, los investigadores diseñaron un marco de evaluación —o una prueba— llamado CRAFT-MD (Marco de evaluación de razonamiento conversacional para pruebas en medicina) y lo implementaron en cuatro modelos de lenguaje grandes para ver qué tan bien se desempeñaban en entornos que imitaban de cerca las interacciones reales con los pacientes.
Los cuatro modelos de lenguaje grande obtuvieron buenos resultados en preguntas de estilo examen médico, pero su desempeño empeoró cuando participaron en conversaciones que imitaban más de cerca las interacciones del mundo real.
Esta brecha, dijeron los investigadores, subraya una doble necesidad: primero, crear evaluaciones más realistas que midan mejor la idoneidad de los modelos de IA clínica para su uso en el mundo real y, segundo, mejorar la capacidad de estas herramientas para realizar diagnósticos basados ??en interacciones más realistas antes de que se implementen en la clínica.
Herramientas de evaluación como CRAFT-MD, dijo el equipo de investigación, no solo pueden evaluar los modelos de IA con mayor precisión para la aptitud física en el mundo real, sino que también podrían ayudar a optimizar su desempeño en la clínica.
«Nuestro trabajo revela una sorprendente paradoja: si bien estos modelos de IA se destacan en los exámenes de ingreso a la escuela médica, tienen dificultades con las idas y venidas básicas de una visita al médico», dijo el autor principal del estudio, Pranav Rajpurkar, profesor adjunto de informática biomédica en la Facultad de Medicina de Harvard.
«La naturaleza dinámica de las conversaciones médicas (la necesidad de hacer las preguntas correctas en el momento adecuado, de reunir información dispersa y de razonar sobre los síntomas) plantea desafíos únicos que van mucho más allá de responder preguntas de opción múltiple. Cuando pasamos de las pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión del diagnóstico», explicó.
Una mejor prueba para comprobar el rendimiento de la IA en el mundo real
En este momento, los desarrolladores prueban el rendimiento de los modelos de IA pidiéndoles que respondan preguntas médicas de opción múltiple, generalmente derivadas del examen nacional para estudiantes de medicina graduados o de pruebas realizadas a residentes médicos como parte de su certificación.
«Este enfoque supone que toda la información relevante se presenta de forma clara y concisa, a menudo con terminología médica o palabras de moda que simplifican el proceso de diagnóstico, pero en el mundo real este proceso es mucho más complicado», dijo la coautora principal del estudio Shreya Johri, estudiante de doctorado en el Laboratorio Rajpurkar de la Facultad de Medicina de Harvard.
«Necesitamos un marco de pruebas que refleje mejor la realidad y, por tanto, sea mejor a la hora de predecir el rendimiento de un modelo», comentó.
En este sentido, CRAFT-MD fue diseñado para ser uno de esos medidores más realistas.
Para simular interacciones del mundo real, CRAFT-MD evalúa la capacidad de los modelos de lenguaje de gran tamaño para recopilar información sobre síntomas, medicamentos y antecedentes familiares y luego hacer un diagnóstico. Se utiliza un agente de IA que se hace pasar por un paciente y responde preguntas en un estilo conversacional y natural.
Otro agente de IA califica la precisión del diagnóstico final emitido por el modelo de lenguaje extenso. Luego, los expertos humanos evalúan los resultados de cada encuentro en cuanto a la capacidad para recopilar información relevante del paciente, la precisión del diagnóstico cuando se presenta información dispersa y el cumplimiento de las indicaciones.
Los investigadores utilizaron CRAFT-MD para probar cuatro modelos de IA (tanto propietarios o comerciales como de código abierto) para determinar su rendimiento en 2000 viñetas clínicas que presentaban afecciones comunes en atención primaria y en 12 especialidades médicas.
Todos los modelos de IA mostraron limitaciones, en particular en su capacidad para mantener conversaciones clínicas y razonar en función de la información proporcionada por los pacientes. Eso, a su vez, comprometió su capacidad para tomar historias clínicas y emitir diagnósticos apropiados. Por ejemplo, los modelos a menudo tenían dificultades para hacer las preguntas correctas para recopilar la historia clínica pertinente del paciente, pasaban por alto información crítica durante la toma de la historia clínica y tenían dificultades para sintetizar información dispersa.
La precisión de estos modelos disminuyó cuando se les presentó información abierta en lugar de respuestas de opción múltiple. Estos modelos también tuvieron un peor desempeño cuando participaron en intercambios de ida y vuelta (como sucede en la mayoría de las conversaciones del mundo real) en lugar de cuando participaron en conversaciones resumidas.
Recomendaciones para optimizar el rendimiento de la IA en el mundo real
Basándose en estos hallazgos, el equipo ofrece un conjunto de recomendaciones tanto para los desarrolladores de IA que diseñan modelos de IA como para los reguladores encargados de evaluar y aprobar estas herramientas.
Estos incluyen:
- Uso de preguntas abiertas y conversacionales que reflejen con mayor precisión las interacciones no estructuradas entre médico y paciente en el diseño, la capacitación y la prueba de herramientas de IA.
- Evaluar los modelos por su capacidad de plantear las preguntas correctas y extraer la información más esencial.
- Diseñar modelos capaces de seguir múltiples conversaciones e integrar información de ellas.
- Diseño de modelos de IA capaces de integrar datos textuales (notas de conversaciones) y no textuales (imágenes, electrocardiogramas).
- Diseño de agentes de IA más sofisticados que puedan interpretar señales no verbales como expresiones faciales, tono y lenguaje corporal.
Además, los investigadores recomiendan que la evaluación incluya tanto a agentes de IA como a expertos humanos, ya que confiar únicamente en expertos humanos es costoso y requiere mucho trabajo. Por ejemplo, CRAFT-MD superó a los evaluadores humanos, ya que procesó 10.000 conversaciones en 48 a 72 horas, más 15 a 16 horas de evaluación de expertos.
En cambio, los métodos basados ??en humanos requerirían un reclutamiento extenso y aproximadamente 500 horas para simulaciones de pacientes (casi tres minutos por conversación) y alrededor de 650 horas para evaluaciones de expertos (casi cuatro minutos por conversación ). El uso de evaluadores de IA como primera línea tiene la ventaja adicional de eliminar el riesgo de exponer a pacientes reales a herramientas de IA no verificadas.
Los investigadores dijeron que esperan que CRAFT-MD también se actualice y optimice periódicamente para integrar modelos mejorados de IA-paciente.
«Como científica médica, me interesan los modelos de IA que puedan mejorar la práctica clínica de manera eficaz y ética», afirmó la coautora principal del estudio, Roxana Daneshjou, profesora adjunta de Ciencias de Datos Biomédicos y Dermatología en la Universidad de Stanford.
«CRAFT-MD crea un marco que refleja más fielmente las interacciones del mundo real y, por lo tanto, ayuda a avanzar en el campo cuando se trata de probar el rendimiento del modelo de IA en la atención médica», concluyó.