El "Google para el ADN" es real: científicos crean un buscador que rastrea todo el código genético del planeta en segundos

Investigadores de ETH Zurich comprimen 100 petabytes de datos genéticos en unos pocos discos duros y permiten búsquedas en segundos

El "Google para el ADN" es real: científicos crean un buscador que rastrea todo el código genético del planeta en segundos
MetaGraph indexa millones de secuencias de ADN, ARN y proteínas de virus, bacterias, hongos, plantas, animales y humanos almacenadas en bases de datos públicas globales
Publicado en Ciencia
Por por Sergio Agudo

La secuenciación de ADN ha cambiado la investigación biomédica durante las últimas décadas. Sin embargo, el problema ya no es obtener datos genéticos, sino encontrar información específica entre los 100 petabytes acumulados en bases públicas, una cantidad equivalente a todo el texto disponible en internet. Hasta ahora, buscar una secuencia concreta entre estos archivos masivos requería descargar conjuntos de datos completos y días de procesamiento.

Investigadores de ETH Zurich han desarrollado MetaGraph, una herramienta que funciona como un motor de búsqueda para ADN y ARN, según se recoge en Nature. Introduces una secuencia genética en un cuadro de búsqueda y obtienes resultados en segundos, identificando dónde ha aparecido previamente en las bases de datos globales. El profesor Gunnar Rätsch lo resume con claridad: es un Google para el ADN.

Un buscador que comprime 100 petabytes en unos pocos discos duros

El truco está en cómo estructura la información. MetaGraph indexa y comprime los datos mediante grafos matemáticos complejos, logrando una compresión por un factor de 300. Es como un resumen de libro: no contiene cada palabra, pero mantiene todas las ideas principales intactas.

Para que nos hagamos una idea del ahorro: toda la información genética pública mundial cabría en unos pocos discos duros de ordenador. Y lo mejor es que las búsquedas más grandes cuestan menos de un dólar, frente a los miles que podía costar antes descargar y procesar esos datos.

La herramienta ya está disponible y funciona. Actualmente tiene indexada algo menos de la mitad de las secuencias disponibles mundialmente, pero según Rätsch, el resto debería estar listo antes de finales de año. Y como está disponible como código abierto, cualquier laboratorio o empresa farmacéutica puede usarla.

¿Para qué sirve esto en la práctica? Pues para acelerar investigaciones que ahora mismo van lentas. Por ejemplo, identificar genes de resistencia a antibióticos buscando en millones de secuencias bacterianas almacenadas. O rastrear mutaciones de virus durante una pandemia comparando genomas de todo el mundo en tiempo real.

El campo de la genética avanza rápido. No hace tanto, científicos creaban una bacteria con código genético optimizado usando solo 57 codones en lugar de los 64 habituales. Y herramientas como MetaGraph podrían ayudar a desentrañar misterios como las especies humanas desconocidas cuyos genes todavía portamos.

André Kahles, miembro del equipo, incluso cree posible que el motor de búsqueda sea utilizado algún día por particulares. Si la secuenciación de ADN continúa abaratándose, podría volverse común identificar las plantas de tu balcón con una simple búsqueda genética. Suena futurista, pero Google tampoco sabía al principio para qué serviría exactamente un buscador web.

MetaGraph demuestra que no siempre se trata de tener ordenadores más potentes. A veces basta con estructurar mejor la información. Los investigadores de ETH Zurich han conseguido meter 100 petabytes de datos en unos pocos discos duros sin perder nada relevante por el camino.

Para ti
Queremos saber tu opinión. ¡Comenta!