Los chatbots basados ??en inteligencia artificial están mejorando mucho el diagnóstico de algunas enfermedades, pero ¿cómo funcionan cuando las preguntas son menos claras? Por ejemplo, ¿cuánto tiempo antes de una cirugía debe un paciente dejar de tomar anticoagulantes recetados? ¿Debe cambiar el protocolo de tratamiento de un paciente si ha tenido reacciones adversas a medicamentos similares en el pasado? Este tipo de preguntas no tienen una respuesta correcta o incorrecta en los libros de texto: los médicos deben usar su criterio.
Jonathan H. Chen, MD, Ph.D., profesor adjunto de medicina, y un equipo de investigadores están explorando si los chatbots, un tipo de modelo de lenguaje grande, o LLM, pueden responder eficazmente a preguntas tan matizadas, y si los médicos apoyados por chatbots tienen un mejor desempeño.
Las respuestas son sí y sí. El equipo de investigación probó el rendimiento de un chatbot al enfrentarse a una variedad de encrucijadas clínicas. Un chatbot por sí solo superó a los médicos que solo podían acceder a una búsqueda en Internet y a referencias médicas, pero armados con su propio LLM, los médicos, de múltiples regiones e instituciones de Estados Unidos, siguieron el ritmo de los chatbots.
«Durante años he dicho que, cuando se combinan, la combinación de un ser humano y un ordenador va a ser mejor que cualquiera de los dos por separado», dijo Chen. «Creo que este estudio nos desafía a pensar en ello de forma más crítica y a preguntarnos: ‘¿En qué es bueno un ordenador? ¿En qué es bueno un ser humano?’. Tal vez tengamos que repensar dónde usamos y combinamos esas habilidades y para qué tareas reclutamos a la IA».
En la revista Nature Medicine se publicó un estudio que detalla estos resultados. Chen y Adam Rodman, MD, profesor adjunto de la Universidad de Harvard, son coautores principales. Los investigadores posdoctorales Ethan Goh, MD, y Robert Gallo, MD, son coautores principales.
Impulsado por chatbots
En octubre de 2024, el equipo realizó un estudio, publicado en JAMA Network Open, que probó el desempeño del chatbot al diagnosticar enfermedades y descubrió que su precisión era mayor que la de los médicos, incluso si usaban un chatbot. El artículo actual profundiza en el lado más blando de la medicina, evaluando el desempeño del chatbot y del médico en preguntas que caen en una categoría llamada «razonamiento de gestión clínica».
Goh explica la diferencia de esta manera: imagina que estás usando una aplicación de mapas en tu teléfono para guiarte a un destino determinado. Usar un LLM para diagnosticar una enfermedad es como usar el mapa para señalar la ubicación correcta. La forma de llegar allí es la parte del razonamiento de gestión: ¿tomas carreteras secundarias porque hay tráfico? ¿Mantienes el rumbo, parachoques con parachoques? ¿O esperas y esperas a que las carreteras se despejen?
En un contexto médico, estas decisiones pueden volverse complicadas. Supongamos que un médico descubre por casualidad que un paciente hospitalizado tiene una masa considerable en la parte superior del pulmón. ¿Cuáles serían los siguientes pasos? El médico (o el chatbot) debería reconocer que un nódulo grande en el lóbulo superior del pulmón tiene estadísticamente una alta probabilidad de propagarse por todo el cuerpo. El médico podría tomar inmediatamente una biopsia de la masa, programar el procedimiento para una fecha posterior o solicitar imágenes para intentar obtener más información.
Determinar qué método es el más adecuado para el paciente depende de una serie de detalles, empezando por las preferencias conocidas del paciente. ¿Es reticente a someterse a un procedimiento invasivo? ¿El historial del paciente muestra una falta de seguimiento de las citas? ¿Es fiable el sistema de salud del hospital a la hora de organizar las citas de seguimiento? ¿Y las derivaciones? Este tipo de factores contextuales son cruciales a tener en cuenta, dijo Chen.
El equipo diseñó un ensayo para estudiar el rendimiento del razonamiento de gestión clínica en tres grupos: el chatbot solo, 46 ??médicos con soporte de chatbot y 46 médicos con acceso solo a búsquedas en Internet y referencias médicas. Seleccionaron cinco casos de pacientes anonimizados y se los entregaron al chatbot y a los médicos, quienes proporcionaron una respuesta escrita que detallaba lo que harían en cada caso, por qué y qué consideraron al tomar la decisión.
Además, los investigadores recurrieron a un grupo de médicos certificados para crear una rúbrica que calificara un juicio o decisión médica como apropiada. Las decisiones fueron luego calificadas en función de la rúbrica.
Para sorpresa del equipo, el chatbot superó a los médicos que solo tenían acceso a Internet y referencias médicas, ya que marcaron más elementos de la rúbrica que los médicos. Sin embargo, los médicos que fueron emparejados con un chatbot obtuvieron el mismo rendimiento que el chatbot solo.
¿Un futuro de médicos chatbot?
Lo que exactamente impulsó la colaboración entre médicos y chatbots es un tema de debate. ¿El uso del LLM obliga a los médicos a pensar más en el caso? ¿O el LLM proporciona una orientación en la que los médicos no habrían pensado por sí solos? Es una dirección futura de exploración, dijo Chen.
Los resultados positivos de los chatbots y de los médicos asociados a ellos plantean una pregunta cada vez más popular: ¿Están los médicos con IA en camino?
«Tal vez sea un punto a favor de la IA», dijo Chen. Pero en lugar de reemplazar a los médicos, los resultados sugieren que los médicos podrían querer recibir la ayuda de un chatbot.
«Esto no significa que los pacientes deban saltarse la visita al médico y acudir directamente a los chatbots. No lo hagan», afirmó. «Hay mucha información buena, pero también hay información mala. La habilidad que todos debemos desarrollar es discernir lo que es creíble y lo que no. Eso es más importante ahora que nunca», destacó.