Inst. de Parasitología y Biomedicina "López-Neyra"

Desde los fragmentos a los cromosomas: mejora automática de los ensamblados de genomas.

José L. Ruiz1*, Susanne Reimering2, Juan David Escobar-Prieto3, Nicolas M. B. Brancucci4,5,6, Diego F. Echeverry3,7, Abdirahman I. Abdi8, Matthias Marti4, Elena Gómez-Díaz1 and Thomas D. Otto4*

1 Instituto de Parasitología y Biomedicina López-Neyra (IPBLN), Consejo Superior de Investigaciones Científicas, 18016, Granada, Spain

2 Department for Computational Biology of Infection Research, Helmholtz Centre for Infection Research, Braunschweig, Germany

3 Centro Internacional de Entrenamiento e Investigaciones Médicas (CIDEIM), Cali, Colombia

4 School of Infection & Immunity, MVLS, University of Glasgow, Glasgow, UK

5 Department of Medical Parasitology and Infection Biology, Swiss Tropical and Public Health Institute, 4123 Allschwil, Switzerland, Switzerland

6 University of Basel, 4001 Basel, Switzerland

7 Departamento de Microbiología, Facultad de Salud, Universidad del Valle, Cali, Colombia 8 KEMRI-Wellcome Trust Research Programme, CGMRC, Kilifi, Kenya

Relevancia: La revista es top en el campo, con un IF de 9,5 y ocupando la posición 3ª en las categorías asignadas en el JCR ("Métodos de Investigación Bioquímica" y "Matemática y Biología Computacional")

RESUMEN

Los avances recientes en tecnologías de secuenciación de lecturas largas no solo permiten que grandes consorcios intenten secuenciar todos los eucariotas de la Tierra, sino que laboratorios individuales puedan también secuenciar sus especies de interés con una inversión relativamente baja. Las tecnologías de secuencias largas prometen resolver los problemas relacionados con secuencias repetidas y de poca complejidad, pero el número de secuencias ensambladas en fragmentos (contigs) normalmente es mayor que el número de cromosomas. Además, suelen contener errores (inserciones y deleciones) alrededor de tractos de homopolímeros. Para superar estos problemas, hemos desarrollado el programa ILRA para corregir genomas ensamblados a partir de secuencias largas. Primero, las secuencias se reordenan, renombran, fusionan, circularizan, o se filtran si son erróneas o representan contaminación. Después, las lecturas cortas (de Illumina) se utilizan para corregir errores relacionados con homopolímeros, gracias a su mayor precisión en este sentido. Hemos puesto a prueba nuestra aproximación con éxito en genomas de diferentes especies (Homo sapiens, Trypanosoma brucei, y Leptosphaeria spp), y generamos y corregimos cuatro nuevos ensamblados de Plasmodium falciparum a partir de muestras del campo. Reportamos que corregir los tractos de homopolímeros redujo el número de genes anotados incorrectamente como pseudogenes, pero una implementación iterativa siempre parece ser necesaria para corregir más errores en la secuenciación. En resumen, hemos descrito y puesto a prueba el rendimiento de nuestra nueva herramienta, que mejoró la calidad de nuevos ensamblados de lecturas largas hasta un tamaño de 1 Gbp. El programa está disponible en GitHub: https://github.com/ThomasDOtto/ILRA.

Fig: Representación esquemática de la corrección de errores de secuenciación. (A) En primer lugar, vemos una representación de un genoma de referencia bien conocido del parásito de la malaria Plasmodium falciparum. Cada una de las seis líneas horizontales negras representan la secuencia (tres por cadena), y están coloreados los marcos de lectura abiertos (ORFs) correspondientes a genes funcionales. B) Se observa la correspondencia de secuencias (en gris, homología) con un nuevo ensamblado de secuencias de la misma especie. (C) En color blanco se observan los marcos abiertos de lectura para esas secuencias, que se anotarían como genes. (D) Se observa cómo algunos serían correctos y se corresponderían con las secuencias de referencias (marcados en verde), mientras que otros son incorrectos (marcados en rojo) y su anotación sería incorrecta (o no se reconocería ningún gen o por un motivo técnico y no biológico el gen anotado sería incorrectamente considerado un pseudogen con un producto truncado a priori no funcional). (E) La aplicación de nuestro programa (ILRA) mejora los resultados de otras alternativas populares, como Pilon, y consigue corregir los marcos de lectura con errores de secuenciación, lo que aseguraría la identificación correcta de genes en las nuevas secuencias. .

https://doi.org/10.1093/bib/bbad248