Investigadores de la Universidad de Stanford desarrollaron un método basado en el aprendizaje automático capaz de diagnosticar múltiples enfermedades utilizando secuencias de receptores de células B y T. El modelo, llamado Machine Learning for Immunological Diagnosis (Mal-ID), distinguió entre COVID-19, VIH, lupus, diabetes tipo 1, respuesta a la vacunación contra la gripe y estados de salud, logrando una clasificación casi perfecta.
Los diagnósticos convencionales se basan en la historia clínica del paciente, exámenes físicos y pruebas de laboratorio, y a menudo requieren múltiples rondas para diagnosticar enfermedades complejas como las enfermedades autoinmunes.
Los receptores de células B (BCR) y los receptores de células T (TCR) se generan a través de procesos de recombinación aleatoria y cambian después de infecciones, vacunas o en enfermedades autoinmunes, lo que ofrece potencial como biomarcadores de la actividad inmunitaria. El aprovechamiento de los datos de secuencias de receptores podría permitir la evaluación simultánea de varias enfermedades.
En el estudio, «Diagnóstico de enfermedades mediante aprendizaje automático de secuencias de receptores de células B y células T», publicado en Science, los investigadores analizaron secuencias de la cadena pesada del BCR y de la cadena beta del TCR de 593 individuos.
Entre los participantes había 63 con COVID-19, 95 con VIH, 86 con lupus, 92 con diabetes tipo 1, 37 que recibieron la vacuna antigripal y 220 controles sanos. Se disponía de datos pareados de BCR y TCR para 542 personas.
Mal-ID clasificó correctamente el estado inmunológico a partir de muestras de sangre de 542 individuos con datos tanto de BCR como de TCR. Se logró un alto rendimiento de clasificación con datos de BCR únicamente, con un área bajo la curva característica operativa del receptor (AUROC) de 0,959 en la cohorte completa de 593.
El lupus se distinguió con precisión de otras afecciones con una sensibilidad del 93 % y una especificidad del 90 %. Los conjuntos de datos externos validaron la generalización del modelo, logrando un AUROC de hasta 1,0 en cohortes BCR independientes y un AUROC de 0,99 en cohortes TCR después de los ajustes de umbral.
Los resultados mostraron que los análisis combinados de células B y T superaron a los métodos de locus único. Algunos genes de la cadena pesada V de inmunoglobulina se asociaron con infecciones virales o estado autoinmune, lo que coincide con el conocimiento inmunológico existente.
Las secuencias BCR específicas del SARS-CoV-2 de bases de datos externas recibieron puntuaciones de asociación con COVID-19 más altas en comparación con los controles sanos. Los efectos de lote mínimos y no significativos o los factores demográficos como la edad, el sexo o la ascendencia influyeron en el rendimiento de la clasificación.
Mal-ID utiliza tres modelos por tipo de receptor: 1) composición del repertorio que evalúa el uso de segmentos genéticos y las tasas de hipermutación somática, 2) agrupamiento de secuencias de la región determinante de complementariedad 3 (CDR3) para identificar patrones asociados a enfermedades, y 3) incrustaciones de modelos de lenguaje de proteínas para capturar similitudes estructurales. Un modelo de conjunto integró estos enfoques para predecir estados patológicos.
Los resultados indican que la secuenciación de receptores inmunitarios puede servir como una herramienta de diagnóstico versátil para una variedad de infecciones, enfermedades autoinmunes y respuestas a vacunas. Es posible que futuros estudios validen su potencial clínico más amplio.