Cada organismo comienza como una sola célula. A través de repetidas rondas de división celular, su desarrollo da lugar a organismos complejos que pueden estar compuestos por billones de células de diferentes tipos. ¿Cómo saber cuál es el destino de los descendientes de esta célula inicial cuando algunas forman parte del músculo cardíaco y otros del tejido nervioso?
El trazado de linajes celulares proporciona el marco para comprender cuándo, dónde y cómo se decide el destino de estas células. Y, dado que con cada división celular algo podría salir mal, la capacidad de trazar la vía de diferenciación celular podría llegar a esclarecer cómo surgen los problemas del desarrollo y enfermedades.
En un artículo científico recientemente publicado en Cell Systems, los investigadores detallan un posible camino a seguir para resolver árboles de linaje celular de mayores dimensiones, incluido el del ser humano.
Un árbol celular de la vida
Así como Charles Darwin mapeó los árboles evolutivos de los organismos, ahora los genetistas se están dedicando a reconstruir árboles de linaje celular, es decir, la historia de desarrollo de las células conforme se van dividiendo y diferenciando para formar un organismo. Si bien es cierto que estamos lejos de comprender por completo como se forman los linajes de organismos complejos, la inteligencia artificial (IA) puede ayudar a acelerar nuestro descubrimiento y conocimiento.
El árbol de linaje celular del diminuto nematodo Caenorhabditis elegans (C. elegans), fue el primero en completarse minuciosamente hace décadas, con la ayuda de un microscopio óptico.
La reconstrucción del linaje celular ha dado un salto en los últimos años con el advenimiento de herramientas moleculares basadas en CRISPR. CRISPR se usa para causar mutaciones en una secuencia de ADN que se insertó en el genoma de la célula, creando así la posibilidad de monitorear el conjunto de mutaciones para proporcionar un marcador que permita a los investigadores reconstruir el linaje celular.
Uno de los problemas de estas tecnologías es que hay mucho «ruido» en los datos, ya que las mutaciones CRISPR ocurren con cierta aleatoriedad y la secuenciación no siempre las detecta todas. También existen restricciones en la «memoria» total del ADN disponible en el registro, ya que la secuencia de caracteres insertada a los que se dirige CRISPR es de tamaño limitado. Además, los mismos patrones de edición a veces aparecen espontáneamente en células no relacionadas, o la secuencia editada por CRISPR se elimina durante la división celular. Adicionalmente, no hay forma de verificar si la reconstrucción de los linajes celulares es adecuada o no.
Un desafío de crowdsourcing
Pablo Meyer Rojas, gerente de análisis y modelado biomédicos del Centro de Salud Computacional de IBM, junto a sus colegas Michael Elowitz, profesor de biología y bioingeniería de Caltech, y Jay Shendure, profesor de ciencias del genoma en la Universidad de Washington, tuvieron la idea de aplicar técnicas de aprendizaje automático a su investigación. ¿Podría la IA encontrar nuevos algoritmos para reconstruir linajes celulares y crear referencias para su comparación?
Con el fin de encontrar dichos algoritmos, organizaron el DREAM Challenge de reconstrucción de linaje del Instituto Allen[2], que tuvo lugar de octubre de 2019 a febrero de 2020. DREAM Challenge (sigla en inglés de Diálogo para la Ingeniería Inversa y Métodos) fue una forma de estudiar los esfuerzos para aplicar ingeniería inversa a las redes biológicas o soluciones que utilizan grandes cantidades de datos.
Crearon tres conjuntos de datos a disposición de los equipos. Incluyeron árboles de linaje celular, tanto in vitro como in silico, compuestos por 100 células, 1.000 células (C. elegans) y 10.000 células (una simulación en ratones), junto con las secuencias de caracteres modificadas en las células por un mecanismo similar a CRISPR. Además, proporcionaron la solución de referencia llamado gold-standard del árbol de linaje celular, para que los equipos entrenaran u optimizaran sus métodos.
Benchmarking de enfoques de IA
Se presentaron 10 equipos que enviaron un total de 22 propuestas para los tres desafíos, y entre ellos encontraron algunos ganadores. Dos métodos originales sobresalieron: DCLEAR (reconstrucción de linaje celular con base en la distancia) y AMberLand. El primero utiliza una estimación de la distancia entre células basada en el uso de diferentes longitudes de caracteres en la secuencia mutada; y el segundo aplica de manera novedosa un método clásico de machine learning llamado Gradient Boosting, una técnica de aprendizaje automático que produce un modelo de predicción en forma de árbol de decisión basado en la combinación de árboles pequeños.
Los investigadores también aprendieron que la elección de la tasa de mutación y la diversidad de mutaciones tiene un fuerte efecto en la precisión de la reconstrucción del linaje celular. Existe un punto óptimo entre las tasas de mutación «demasiado bajas» y «demasiado altas».
Los resultados muestran que podría ser posible entrenar algoritmos en árboles más pequeños y luego usarlos para implementar dichos algoritmos a la reconstrucción de árboles mucho mayores, e incluso el humano. Para ello, fue esencial tener un conjunto de árboles para poder realizar el entrenamiento de los algoritmos junto con su solución.
De ser posible elucidar el misterio de cómo se origina el cuerpo humano a partir de una sola célula, ese conocimiento podría encaminarnos hacia nuevos tratamientos e incluso curas para enfermedades congénitas y problemas del desarrollo, desde el síndrome de Down hasta el cáncer. Dada la complejidad de este problema y su potencial enorme recompensa, se trata de un desafío perfecto para la IA. Esto también demuestra que todavía hay muchos campos donde la IA puede aplicarse y tener un impacto real en la mejora de las predicciones. Todo lo que se necesita son nuevas ideas y nuevos conjuntos de datos.