El estudio llevado a cabo por estos matemáticos demuestra cómo la inteligencia artificial puede analizar grandes conjuntos de datos genómicos y epidemiológicos para identificar patrones y tendencias que podrían pasar desapercibidos para los métodos tradicionales. Gracias a esta tecnología de vanguardia, los investigadores pueden anticiparse a la aparición de nuevas variantes del virus y tomar medidas proactivas para contener su propagación. Este enfoque predictivo es fundamental para la toma de decisiones informadas y la planificación estratégica en la lucha contra el COVID-19. La colaboración entre matemáticos y expertos en salud pública ha demostrado ser fundamental en la gestión de la crisis sanitaria, poniendo de relieve el papel crucial de la tecnología en la respuesta a emergencias sanitarias.
Científicos de las Universidades de Manchester y Oxford han desarrollado un innovador marco de trabajo basado en inteligencia artificial capaz de identificar y rastrear variantes nuevas y preocupantes de COVID-19. Esta tecnología, que también promete ser útil para enfrentar otras infecciones en el futuro, combina técnicas de reducción de dimensiones con un algoritmo de agrupamiento explicable denominado CLASSIX. Este último, creado por matemáticos de la Universidad de Manchester, facilita la identificación rápida de grupos de genomas virales que podrían representar un riesgo futuro, a partir de enormes volúmenes de datos.
Publicado en la revista PNAS, el estudio podría complementar los métodos tradicionales de seguimiento de la evolución viral, como el análisis filogenético, que actualmente requieren una extensa curación manual. Roberto Cahuantzi, investigador en la Universidad de Manchester y autor principal del estudio, destacó la importancia de identificar a tiempo las variantes del virus que aumentan la transmisibilidad, evaden la respuesta inmune y agravan la enfermedad.
Con casi 16 millones de secuencias disponibles en la base de datos GISAID, mapear la evolución de todos los genomas de COVID-19 supone un enorme desafío que consume grandes cantidades de tiempo computacional y humano. La metodología propuesta permite automatizar estas tareas, procesando 5.7 millones de secuencias de alta cobertura en solo uno o dos días con un portátil moderno estándar, una tarea inviable con los métodos existentes hasta la fecha.
Thomas House, profesor de Ciencias Matemáticas en la Universidad de Manchester, señaló la necesidad de mejorar nuestros métodos para analizar la cantidad sin precedentes de datos genéticos generados durante la pandemia. La propuesta no busca reemplazar el trabajo humano, sino complementarlo, liberando a los expertos para otros desarrollos vitales.
El método funciona descomponiendo las secuencias genéticas del virus COVID-19 en «palabras» más pequeñas (denominadas 3-mers) representadas como números, para luego agrupar secuencias similares basándose en sus patrones de «palabras» mediante técnicas de aprendizaje automático.
Stefan Gütte, profesor de Matemáticas Aplicadas en la Universidad de Manchester, destacó que el algoritmo de agrupamiento CLASSIX desarrollado es menos exigente computacionalmente que los métodos tradicionales y es completamente explicable, ofreciendo explicaciones textuales y visuales de los grupos calculados.
Cahuantzi concluyó que su análisis demuestra el potencial de los métodos de aprendizaje automático como herramientas de alerta temprana para el descubrimiento de variantes mayores emergentes, sin depender de la generación de filogenias. Aunque la filogenética sigue siendo el estándar de oro para entender la ascendencia viral, estos métodos de aprendizaje automático pueden acomodar varios órdenes de magnitud más secuencias que los métodos filogenéticos actuales y a un bajo coste computacional.