Estoy a punto de comenzar un proyecto de investigación en bioinformática, pero no tengo antecedentes biológicos.
Sé que mi proyecto se trata de un análisis de rendimiento de la secuenciación del ADN y la búsqueda de "armas" como Hadoop, Apache Spark y Apache Flink, así que pasé los últimos días tratando de armar la "imagen del ADN" antes de obtener Comenzó con las cosas de programación.
Mi comprensión de la situación es que:
¿Qué me estoy perdiendo/en qué me equivoqué?
Aquí hay un resumen rápido de algunos errores en su buen análisis:
No muchas aplicaciones de bioinformática utilizan Hadoop, Apache Spark o Apache Flink. De hecho, nunca he oído hablar de las herramientas Apache Spark y Flink, y solo he visto a 2 personas usar Hadoop para procesar archivos de alineación.
La imagen que tiene aquí es de una canalización de análisis NGS normal. Esto implica alineación/ensamblaje, llamada de variantes y análisis biológico con hipótesis relevantes. El ensamblaje/alineación es la parte más costosa desde el punto de vista computacional, y utilizamos clústeres de HPC o servicios en la nube escalables como AWS para lograrlo.
Definitivamente, debe hablar con un biólogo que tenga algo de experiencia computacional para obtener una idea de la razón detrás de nuestros análisis. Una vez que comprenda las motivaciones, su contribución será más relevante y útil para la comunidad.
La respuesta de RAM es muy buena, solo agregaré el lado computacional, las lecturas cortas son propensas a errores. Eso es importante tenerlo en cuenta al alinear o ensamblar. Las lecturas en sí mismas pueden ser inexactas, lo que detectamos al tener múltiples lecturas que se superponen mucho; asumimos que las discrepancias perdidas vistas en una sola lectura en una posición son errores. Además, si un genoma de referencia no está lo suficientemente cerca de la muestra, las lecturas pueden estar desalineadas.
Los genomas de muchos organismos también tienen elementos repetitivos que pueden dificultar la alineación correcta de las lecturas y dificultar la creación de un genoma de referencia preciso.
Y tenga en cuenta que puede haber muchas más discrepancias además de las sustituciones de un solo nucleótido, aunque cualquier cosa más involucrada puede ser difícil de detectar solo con datos de lectura corta. Y la mayoría de los rasgos que son realmente interesantes de estudiar son poligénicos, por lo que no es exactamente fácil decir que una diferencia en el ADN provoca una diferencia detectable en el fenotipo.
phil
Bilal Akil