Algunos afirman que la tecnología de aprendizaje automático tiene el potencial de transformar los sistemas de salud, pero un estudio publicado por The British Medical Journal señaló que los modelos de aprendizaje automático tienen un rendimiento similar al de los modelos estadísticos tradicionales y comparten una incertidumbre similar al hacer predicciones de riesgo para pacientes individuales.
El NHS ha invertido 250 millones de libras (323 millones de dólares; 275 millones de euros) para integrar el aprendizaje automático en la atención médica, pero los investigadores dicen que el nivel de consistencia (estabilidad) dentro y entre los modelos debe evaluarse antes de que se utilicen para tomar decisiones de tratamiento para pacientes individuales.
Los modelos de predicción de riesgos se utilizan ampliamente en la práctica clínica. Utilizan técnicas estadísticas junto con información sobre las personas, como su edad y origen étnico, para identificar a las personas con alto riesgo de desarrollar una enfermedad y tomar decisiones sobre su atención.
Investigaciones anteriores han encontrado que un modelo de predicción de riesgo tradicional como QRISK3 tiene un rendimiento de modelo muy bueno a nivel de población, pero tiene una incertidumbre considerable sobre la predicción de riesgo individual.
Algunos estudios afirman que los modelos de aprendizaje automático pueden superar a los modelos tradicionales, mientras que otros argumentan que no pueden proporcionar razones explicables detrás de sus predicciones, lo que podría conducir a acciones inapropiadas.
Es más, los modelos de aprendizaje automático a menudo ignoran la censura, cuando los pacientes se pierden (ya sea por error o por no estar disponibles) durante un estudio y el modelo asume que están libres de enfermedades, lo que genera predicciones sesgadas.
Para explorar más a fondo estos problemas, investigadores del Reino Unido, China y los Países Bajos se propusieron evaluar la coherencia del aprendizaje automático y las técnicas estadísticas para predecir los riesgos de enfermedad cardiovascular a nivel individual y poblacional y los efectos de la censura en las predicciones de riesgo.
Evaluaron 19 técnicas de predicción diferentes (12 modelos de aprendizaje automático y siete modelos estadísticos) utilizando datos de 3.6 millones de pacientes registrados en 391 consultorios generales en Inglaterra entre 1998 y 2018.
Se utilizaron datos de prácticas generales, ingresos hospitalarios y registros de mortalidad para probar el desempeño de cada modelo frente a eventos reales.
Los 19 modelos arrojaron un rendimiento similar a nivel de población. Sin embargo, las predicciones del riesgo de enfermedad cardiovascular para los mismos pacientes variaron sustancialmente entre los modelos, especialmente en pacientes con mayores riesgos.
Por ejemplo, un paciente con un riesgo de enfermedad cardiovascular de 9.5-10.5% predicho por el modelo QRISK3 tradicional tenía un riesgo de 2.9-9.2% y 2.4-7.2% predicho por otros modelos.
Los modelos que ignoraron la censura (incluidos los modelos de aprendizaje automático de uso común) subestimaron sustancialmente el riesgo de enfermedad cardiovascular.
De los 223.815 pacientes con un riesgo de enfermedad cardiovascular superior al 7,5% con QRISK3 (un modelo que sí considera censurar), el 57,8% se reclasificaría por debajo del 7,5% al ??utilizar otro tipo de modelo, explican los investigadores.
Los investigadores reconocen algunas limitaciones al comparar los diferentes modelos, como el hecho de que podrían haberse considerado más predictores. Sin embargo, señalan que sus resultados se mantuvieron similares después de análisis más detallados, lo que sugiere que resisten el escrutinio.
“Una variedad de modelos predijeron los riesgos para los mismos pacientes de manera muy diferente a pesar de desempeños de modelos similares”, escriben. «En consecuencia, se podrían tomar diferentes decisiones de tratamiento seleccionando arbitrariamente otra técnica de modelado».
Como tal, sugieren que estos modelos «no deben aplicarse directamente a la predicción de riesgos a largo plazo sin considerar la censura» y que el nivel de coherencia dentro y entre los modelos «debe evaluarse de forma rutinaria antes de que se utilicen para informar la toma de decisiones clínicas».