10 octubre 2016

Primera Parte Algoritmos de ensamblaje en bioinformática

En el artículo de Aguilar-Bultet y Falquet, publicado el año 2015 con el título “Secuenciación y ensamblaje de novo de genomas bacterianos: Una alternativa para el estudio de nuevos patógenos”, se menciona que la caracterización completa de un microorganismo en el laboratorio constituye un proceso muy costoso y laborioso que consume mucho tiempo. Con el incremento de las capacidades de secuenciación a partir del surgimiento de las tecnologías de secuenciación de nueva generación en el año 2005, se ha abierto un nuevo camino en este campo. Entre los principales aportes de estas nuevas tecnologías cabe citar que han facilitado la secuenciación del acido desoxirribonucleico genómico de un alto número de bacterias, generándose un gran volumen de datos en corto tiempo. La obtención de un genoma completo permite contar, en principio, con el catálogo completo de genes que un organismo puede expresar en cualquier momento de su ciclo de vida. De ahí la importancia de las tecnologías de nueva generación, que al permitir el procesamiento masivo y en paralelo de las muestras, reducen notablemente los costos y el tiempo para obtener la secuencia genómica, en comparación con la secuenciación automática de Sanger, descrita en el artículo de Metzker, publicado el año 2010 con el título “Tecnologías de secuenciación, la siguiente generación”. Para procesar y analizar el enorme volumen de datos biológicos acumulados, como resultado del uso de estas tecnologías, ha sido necesario el empleo de herramientas bioinformáticas que permitan manejar eficientemente esta creciente cantidad de información, herramientas que también se han venido modificando y perfeccionando junto al propio desarrollo de las tecnologías de nueva generación.

La secuenciación de genomas completos es un método poderoso para la rápida identificación de genes en un organismo, y sirve como herramienta básica para posteriores análisis funcionales de los nuevos genes descubiertos. La secuencia genómica provee de un conjunto de virtualmente todas las proteínas que el organismo puede expresar. El método de secuenciación automática de Sanger dominó la industria de secuenciación por casi veinte años, llevando a innumerables logros en este campo, como fue la secuenciación del primer genoma bacteriano Haemophilus influenzae y la primera secuencia completa del genoma humano. A pesar de las mejoras técnicas durante los últimos años, las limitaciones de la tecnología de Sanger trajo consigo la necesidad de desarrollar nuevas y mejores alternativas para la secuenciación de un gran número de genomas en corto tiempo. Es por ello que surgen las tecnologías de secuenciación de nueva generación. La tecnología 454, conocida como pirosecuenciación, fue la primera secuenciación de nueva generación en salir al mercado entre los años 2004 y 2005, descrito en el artículo de Margulies y sus colegas, publicado el año 2005 con el título “Secuenciación del genoma en microfabricado de reactores picolitro de alta densidad”. A continuación surgieron Illumina en el año 2006, detallado en el artículo de Bentley titulado “Resecuenciación del genoma completo”; con sus variaciones, basada en secuenciación por síntesis, SOLiD en el año 2007, basada en secuenciación por ligación, y Ion Torrent en el año 2010, descrita en el artículo de Pennisi titulado “Semiconductores inspiran nuevas tecnologías de secuenciación”, basada en detección de pH, las cuales necesitan de la amplificación del acido desoxirribonucleico previamente a su secuenciación. Además, se han desarrollado tecnologías que no necesitan del paso inicial de amplificación, sino que secuencian directamente una sola molécula de acido desoxirribonucleico, entre las que se encuentran Helicos, salida al mercado el año 2008, puntualizada en el artículo de Harris y sus colegas titulado “Secuenciación de ADN de una sola molécula de un genoma viral”, además de SMRT Pacific Biosciences el año 2010, descrita en el artículo de Eid y sus colegas titulado “Secuenciación del ADN en tiempo real a partir de moléculas individuales de polimerasa”.

En la tesis doctoral de Guerrero Fernández, publicada el año 2015 con el título “Plataforma de supercomputación para bioinformática”, se menciona que el análisis de secuencias es parte de la bioinformática, la cual ocurre una vez que se obtienen las lecturas con respecto al secuenciamiento, dicho análisis se puede dividir en las siguientes etapas: (1) Preprocesamiento, (2) ensamblaje y anotación, y (3) análisis estadístico o funcional. En la etapa de preprocesamiento, las lecturas necesitan un preprocesamiento por más que los fabricantes digan que lo que proporcionan ya es adecuado para su uso. Gracias al preprocesamiento, se incrementa la calidad de los resultados, lo que facilita el posterior tratamiento de los mismos. En la etapa de preparación de muestras se añaden diferentes elementos artificiales, que desaparecerán de la parte útil de la secuencia para no proporcionar resultados indeseables o artefactuales. El ensamblaje consiste en obtener cadenas de acido desoxirribonucleico y acido ribonucleico relativamente grandes, que idealmente estarían ordenadas gracias a las secuencias pareadas, en forma de scaffolds, a partir de los pequeños trozos de secuencias que se obtienen de uno o varios experimentos de secuenciación. Existen varios tipos de algoritmos para realizar este proceso, pero básicamente consisten en la comparación de todas las secuencias obtenidas en el experimento y la creación de diferentes grafos o tablas de relaciones ponderadas para determinar qué secuencias están solapadas con otras y en qué medida lo están. Siguiendo las relaciones de solapamiento y algunos heurísticos para acelerar las decisiones, se consigue formar una cadena mayor. Como es de suponer, los algoritmos más antiguos no están preparados para utilizar múltiples unidades centrales de proceso y necesitan mantener todas las secuencias en memoria durante la fase de cálculo de los solapamientos. Realizar un mapeo es mucho más simple que un ensamblaje. En este caso se dispone de un genoma o transcriptoma de referencia ya ensamblado que ayuda a realizar el alineamiento. Los ensamblajes, sean de genomas o transcriptomas, necesitan una anotación, que consiste en comparar los contigs o conjunto de secuencias, obtenidos con otras secuencias, principalmente de bases de datos públicas, para establecer si el parecido entre la secuencia nueva y la conocida es suficiente para asignarle las mismas funciones que tiene la secuencia conocida. Con los contigs anotados se puede empezar a interpretar y hacer análisis de los resultados, ya sea análisis estadístico o búsqueda en bases de datos especializadas.

No hay comentarios:

Publicar un comentario