Uso del aprendizaje automático para identificar cánceres no diagnosticables

El primer paso para elegir el tratamiento apropiado para un paciente con cáncer es identificar su tipo específico, incluida la determinación del sitio primario: el órgano o parte del cuerpo donde comienza.

En casos raros, no se puede determinar el origen de un cáncer, incluso con pruebas exhaustivas. Aunque estos cánceres de origen primario desconocido tienden a ser agresivos, los oncólogos deben tratarlos con terapias no dirigidas, que con frecuencia tienen toxicidades graves y dan como resultado bajas tasas de supervivencia.

Un nuevo enfoque de aprendizaje profundo desarrollado por investigadores del Instituto Koch para la Investigación Integral del Cáncer en el Massachusetts Institute of Technology (MIT) y el Hospital General de Massachusetts (MGH) puede ayudar a clasificar los cánceres de origen primario desconocido al observar más de cerca los programas de expresión génica relacionados con el desarrollo y la diferenciación celular temprana.

«A veces se pueden aplicar todas las herramientas que los patólogos tienen para ofrecer y todavía se queda sin una respuesta. Las herramientas de aprendizaje automático como esta podrían empoderar a los oncólogos para elegir tratamientos más efectivos y brindar más orientación a sus pacientes», señaló Salil Garg, uno de los autores del estudio.

El estudio, publicado el 30 de agosto en Cancer Discovery, determinó que una herramienta de inteligencia artificial es capaz de identificar tipos de cáncer con un alto grado de sensibilidad y precisión.

Aprendizaje automático en desarrollo

Analizar las diferencias en la expresión génica entre diferentes tipos de tumores de origen primario desconocido es un problema ideal para que lo resuelva el aprendizaje automático. Las células cancerosas se ven y se comportan de manera bastante diferente a las células normales, en parte debido a las amplias alteraciones en la forma en que se expresan sus genes. Gracias a los avances en la creación de perfiles de células individuales y los esfuerzos para catalogar diferentes patrones de expresión celular en atlas de células, hay una gran cantidad de datos, aunque abrumadores para los ojos humanos, que contienen pistas sobre cómo y dónde se originaron los diferentes tipos de cáncer.

Sin embargo, construir un modelo de aprendizaje automático que aproveche las diferencias entre células sanas y normales, y entre diferentes tipos de cáncer, en una herramienta de diagnóstico es un acto de equilibrio. Si un modelo es demasiado complejo y tiene en cuenta demasiadas características de la expresión del gen del cáncer, puede parecer que el modelo aprende perfectamente los datos de entrenamiento, pero falla cuando encuentra nuevos datos. Sin embargo, al simplificar el modelo al reducir la cantidad de características, el modelo puede perder los tipos de información que conducirían a clasificaciones precisas de los tipos de cáncer.

Con el fin de lograr un equilibrio entre la reducción del número de características y la extracción de la información más relevante, el equipo centró el modelo en los signos de vías de desarrollo alteradas en las células cancerosas. A medida que se desarrolla un embrión y las células indiferenciadas se especializan en varios órganos, una multitud de vías dirige cómo las células se dividen, crecen, cambian de forma y migran. A medida que se desarrolla el tumor, las células cancerosas pierden muchas de las características especializadas de una célula madura. Al mismo tiempo, comienzan a parecerse a las células embrionarias en algunos aspectos, a medida que adquieren la capacidad de proliferar, transformarse y hacer metástasis en nuevos tejidos. Se sabe que muchos de los programas de expresión génica que impulsan la embriogénesis se reactivan o desregulan en las células cancerosas.

Los investigadores compararon dos atlas de células grandes e identificaron correlaciones entre células tumorales y embrionarias: el Atlas del Genoma del Cáncer (TCGA), que contiene datos de expresión génica para 33 tipos de tumores, y el Atlas de Células de Organogénesis de Ratón (MOCA), que perfila 56 trayectorias separadas de células embrionarias a medida que se desarrollan y diferencian.

«Las herramientas de resolución de una sola célula han cambiado drásticamente la forma en que estudiamos la biología del cáncer, pero la forma en que hacemos que esta revolución sea impactante para los pacientes es otra cuestión», explicó Enrico Moiso, autor principal de la investigación.

«Con la aparición de atlas de células de desarrollo, especialmente aquellos que se enfocan en las primeras fases de la organogénesis como MOCA, podemos expandir nuestras herramientas más allá de la información histológica y genómica y abrir puertas a nuevas formas de perfilar e identificar tumores y desarrollar nuevos tratamientos», señaló.

El mapa resultante de correlaciones entre los patrones de expresión génica del desarrollo en células tumorales y embrionarias se transformó luego en un modelo de aprendizaje automático. Los investigadores desglosaron la expresión génica de las muestras tumorales del TCGA en componentes individuales que corresponden a un punto de tiempo específico en una trayectoria de desarrollo y asignaron a cada uno de estos componentes un valor matemático. Luego, los investigadores construyeron un modelo de aprendizaje automático, llamado Perceptrón multicapa de desarrollo (D-MLP), que califica un tumor para sus componentes de desarrollo y luego predice su origen.

Clasificación de tumores

Después del entrenamiento, el D-MLP se aplicó a 52 muestras nuevas de cánceres particularmente desafiantes de origen primario desconocido que no pudieron diagnosticarse con las herramientas disponibles. Estos casos representaron los más desafiantes vistos en MGH durante un período de cuatro años a partir de 2017. De manera emocionante, el modelo clasificó los tumores en cuatro categorías y arrojó predicciones y otra información que podría guiar el diagnóstico y el tratamiento de estos pacientes.

Por ejemplo, una muestra provino de un paciente con antecedentes de cáncer de mama que mostró signos de un cáncer agresivo en los espacios líquidos alrededor del abdomen. Inicialmente, los oncólogos no pudieron encontrar una masa tumoral y no pudieron clasificar las células cancerosas con las herramientas que tenían en ese momento. Sin embargo, el D-MLP predijo fuertemente el cáncer de ovario. Seis meses después de que la paciente se presentó por primera vez, finalmente se encontró una masa en el ovario que resultó ser el origen del tumor.

Además, las comparaciones sistemáticas del estudio entre células tumorales y embrionarias revelaron conocimientos prometedores, ya veces sorprendentes, sobre los perfiles de expresión génica de tipos de tumores específicos. Por ejemplo, en las primeras etapas del desarrollo embrionario, se forma un tubo intestinal rudimentario, con los pulmones y otros órganos cercanos que surgen del intestino anterior, y gran parte del tracto digestivo se forma a partir del intestino medio y posterior. El estudio mostró que las células tumorales derivadas del pulmón mostraban fuertes similitudes no solo con el intestino anterior, como era de esperar, sino también con las trayectorias de desarrollo derivadas del intestino medio y posterior. Hallazgos como estos sugieren que las diferencias en los programas de desarrollo algún día podrían explotarse de la misma manera que las mutaciones genéticas se usan comúnmente para diseñar tratamientos contra el cáncer personalizados o dirigidos.

Si bien el estudio presenta un enfoque poderoso para clasificar los tumores, tiene algunas limitaciones. En el trabajo futuro, los investigadores planean aumentar el poder predictivo de su modelo mediante la incorporación de otros tipos de datos, en particular, información obtenida de radiología, microscopía y otros tipos de imágenes de tumores.

«La expresión génica del desarrollo representa solo una pequeña porción de todos los factores que podrían usarse para diagnosticar y tratar el cáncer», comentó Garg agregando que “la integración de la información de radiología, patología y expresión génica es el siguiente paso real en la medicina personalizada para pacientes con cáncer».

Compartir este artículo

Artículos relacionados