Herramientas para analizar datos de RNA-seq

Espero que este sea un buen lugar para hacer esa pregunta. Tengo que hacer un análisis de datos sobre datos de ARN-seq de células humanas. Actualmente estoy buscando herramientas que me ayuden con eso. Específicamente, necesitaría algunas herramientas para analizar la expresión génica de los datos. Algo que me ayude a trazar la expresión de los genes seleccionados en cada archivo fastq y comparar las diferencias en la expresión con la posibilidad de exportar los resultados o alguna interfaz de línea de comandos para secuencias de comandos. Básicamente, necesito algo donde pueda poner un archivo fastq y quizás también un archivo de anotación del genoma humano como entrada y obtener la expresión génica como salida. He mirado el bioconductor y sus paquetes y en la Lista de herramientas bioinformáticas de RNA-Seq de Wikipedia.. Supongo que algunas de estas herramientas tienen que poder hacer lo que necesito, pero no he podido averiguar cuál y cómo deben usarse para lograrlo. ¿Podría alguien por favor darme algún consejo?

Le sugiero que comience con una buena lectura primero, algo así como Análisis de datos de secuenciación de ARN .

Respuestas (6)

Es probable que necesite una herramienta para "mapear" las lecturas en el genoma de referencia. Puede encontrar dicho genoma de referencia, junto con anotaciones, aquí: ftp://ussd-ftp.illumina.com/ .

Las herramientas de mapeo como bowtie2 o bwa toman archivos fastq y hacen referencia a los genomas y generan los resultados del mapeo en un formato llamado sam .

Entonces tiene muchas opciones para estimar la expresión génica.

  • Puede escribir su propio algoritmo para analizar el formato sam y estimar los recuentos de lectura normalizados en cada gen.

  • Puede combinar más o menos herramientas de bajo nivel como samtools, pysam, htseq con algunas secuencias de comandos para hacer esto.

  • Puede usar herramientas que hacen el conteo (como bedtools o htseq-count) y análisis de expresiones diferenciales (como deseq2).

En el último caso, recomendaría comenzar con la documentación de la herramienta final para averiguar cuáles son las herramientas que necesita para generar el resultado del paso anterior.

Es muy probable que uses algo de R o Python, o uses la plataforma web galaxy para algunos de los pasos.

Ediciones

Como mencionó @scribaniwannabe en esta respuesta , el documento sobre el conjunto de herramientas Tuxedo brinda un buen ejemplo de los pasos para llevar a cabo un análisis de RNA-seq utilizando herramientas recientes (a partir de octubre de 2016).

Como @Student T recuerda en esta respuesta , los datos de RNA-seq contienen lecturas que pueden provenir de uniones exón-exón, por lo que el mapeador de lectura debe configurarse de tal manera que no descarte las lecturas que no se mapean continuamente en toda su longitud en el genoma Que yo sepa, HISAT2 y CRAC hacen esto de forma predeterminada. Bowtie2 necesita configuraciones especiales.

TopHat es la parte de la suite tuxedo que realiza el mapeo con detección de empalmes.
@ swbarnes2 Tiene razón con respecto a la suite de esmoquin más antigua (la nueva usa HISAT2). Curiosamente, TopHat usa bowtie2 internamente, y parece que no usa el modo "--local" (busque "local" en el ejecutable tophat, que resulta ser un programa complejo de python). No sé cómo logra la conciencia de empalme.

Aunque también estoy de acuerdo con @bli en que R y Python (en particular Bioconductor) tienen paquetes más que suficientes para comparar la expresión génica. No debe alinear sus lecturas con bwa o bowtie porque no tienen en cuenta los intrones. Deberías usar TopHato STAR.

Tiene razón, aunque bowtie2 se puede usar con la opción --local para evitar descartar el mapeo de lecturas en las uniones exón-exón. Otros alineadores que podrían usarse son HISAT2 < ccb.jhu.edu/software/hisat2/index.shtml > y CRAC < crac.gforge.inria.fr >.

La respuesta que dio @bli es genial. Pensé en señalar que Johns Hopkins también actualizó recientemente su suite de esmoquin . Se ve prometedor y tiene excelentes instrucciones de uso.

Además, he comenzado a encariñarme bastante con la herramienta GeneTrail 2 para mi análisis secundario de RNA-Seq. Brinda excelentes resultados para análisis de enriquecimiento.

Espero que esto sea útil.

Por último, también me gusta usar [HOMER][3] para encontrar motivos de novo arriba/abajo de las regiones promotoras de genes expresados ​​deferentemente. [3]: homer.salk.edu/homer/motivo
Gracias por el enlace sobre la suite de esmoquin. Las explicaciones en el artículo parecen útiles.

Creo que STAR es el alineador de empalme preferido hoy en día. STAR puede generar recuentos por gen o por transcripción. Suponiendo que tiene datos de Illumina, puede intentar usar las herramientas en BaseSpace de Illumina. RNASeq podría ser una de las cosas que puede hacer de forma gratuita allí.

pyrpipe afirma ser una biblioteca de python integral para el análisis de RNA-seq. Aquí hay una ilustración de su artículo :

ingrese la descripción de la imagen aquí

Además, me gustaría llamar la atención sobre la canalización oficial de RNA-seq de ENCODE, que se mantiene activamente en el repositorio GitHub de ENCODE-DCC .

Creo que HTSeq hace casi eso. Produce una matriz de recuentos de lectura por gen dada una muestra fastq y un archivo de anotación