Espero que este sea un buen lugar para hacer esa pregunta. Tengo que hacer un análisis de datos sobre datos de ARN-seq de células humanas. Actualmente estoy buscando herramientas que me ayuden con eso. Específicamente, necesitaría algunas herramientas para analizar la expresión génica de los datos. Algo que me ayude a trazar la expresión de los genes seleccionados en cada archivo fastq y comparar las diferencias en la expresión con la posibilidad de exportar los resultados o alguna interfaz de línea de comandos para secuencias de comandos. Básicamente, necesito algo donde pueda poner un archivo fastq y quizás también un archivo de anotación del genoma humano como entrada y obtener la expresión génica como salida. He mirado el bioconductor y sus paquetes y en la Lista de herramientas bioinformáticas de RNA-Seq de Wikipedia.. Supongo que algunas de estas herramientas tienen que poder hacer lo que necesito, pero no he podido averiguar cuál y cómo deben usarse para lograrlo. ¿Podría alguien por favor darme algún consejo?
Es probable que necesite una herramienta para "mapear" las lecturas en el genoma de referencia. Puede encontrar dicho genoma de referencia, junto con anotaciones, aquí: ftp://ussd-ftp.illumina.com/ .
Las herramientas de mapeo como bowtie2 o bwa toman archivos fastq y hacen referencia a los genomas y generan los resultados del mapeo en un formato llamado sam .
Entonces tiene muchas opciones para estimar la expresión génica.
Puede escribir su propio algoritmo para analizar el formato sam y estimar los recuentos de lectura normalizados en cada gen.
Puede combinar más o menos herramientas de bajo nivel como samtools, pysam, htseq con algunas secuencias de comandos para hacer esto.
Puede usar herramientas que hacen el conteo (como bedtools o htseq-count) y análisis de expresiones diferenciales (como deseq2).
En el último caso, recomendaría comenzar con la documentación de la herramienta final para averiguar cuáles son las herramientas que necesita para generar el resultado del paso anterior.
Es muy probable que uses algo de R o Python, o uses la plataforma web galaxy para algunos de los pasos.
Como mencionó @scribaniwannabe en esta respuesta , el documento sobre el conjunto de herramientas Tuxedo brinda un buen ejemplo de los pasos para llevar a cabo un análisis de RNA-seq utilizando herramientas recientes (a partir de octubre de 2016).
Como @Student T recuerda en esta respuesta , los datos de RNA-seq contienen lecturas que pueden provenir de uniones exón-exón, por lo que el mapeador de lectura debe configurarse de tal manera que no descarte las lecturas que no se mapean continuamente en toda su longitud en el genoma Que yo sepa, HISAT2 y CRAC hacen esto de forma predeterminada. Bowtie2 necesita configuraciones especiales.
Aunque también estoy de acuerdo con @bli en que R y Python (en particular Bioconductor
) tienen paquetes más que suficientes para comparar la expresión génica. No debe alinear sus lecturas con bwa o bowtie porque no tienen en cuenta los intrones. Deberías usar TopHat
o STAR
.
La respuesta que dio @bli es genial. Pensé en señalar que Johns Hopkins también actualizó recientemente su suite de esmoquin . Se ve prometedor y tiene excelentes instrucciones de uso.
Además, he comenzado a encariñarme bastante con la herramienta GeneTrail 2 para mi análisis secundario de RNA-Seq. Brinda excelentes resultados para análisis de enriquecimiento.
Espero que esto sea útil.
Creo que STAR es el alineador de empalme preferido hoy en día. STAR puede generar recuentos por gen o por transcripción. Suponiendo que tiene datos de Illumina, puede intentar usar las herramientas en BaseSpace de Illumina. RNASeq podría ser una de las cosas que puede hacer de forma gratuita allí.
pyrpipe afirma ser una biblioteca de python integral para el análisis de RNA-seq. Aquí hay una ilustración de su artículo :
Además, me gustaría llamar la atención sobre la canalización oficial de RNA-seq de ENCODE, que se mantiene activamente en el repositorio GitHub de ENCODE-DCC .
Creo que HTSeq hace casi eso. Produce una matriz de recuentos de lectura por gen dada una muestra fastq y un archivo de anotación
alephreish