Tengo datos de secuenciación (Illumina). La preparación de la biblioteca se centró en los ncRNA cortos. Me gustaría identificar miRNAs humanos. ¿Cree que es factible simplemente BLAST
contra una versión actual de mirBase y filtrar la salida para miRNAs humanos maduros sin usar bowtie/tophat
contra hg19
primero?
Gracias
No necesita usar TopHat
, pero es mejor usar bowtie
en lugar de BLAST
. En primer lugar, debe deshacerse de las secuencias del adaptador (junto con otros pasos de procesamiento antes de la alineación).
Ahora hay dos aspectos aquí:
El primero es relativamente sencillo, mientras que el segundo requiere que realice pruebas adicionales, como la predicción de bucles de tallo, etc. Hay software publicado que puede manejar ambos aspectos ( mirDeep
, miRScan
etc.). Consulte esta revisión para obtener detalles sobre los diferentes buscadores de genes de miARN. He usado miRdeep
y usa bowtie-1
para alinear.
BLAST
funcionaría, pero debe establecer parámetros que sean adecuados para secuencias pequeñas (aumentar el límite del valor E, reducir el tamaño de la palabra, etc.). Además, BLAST
no tiene una opción de corte para el número de desajustes y la longitud de la alineación (solo tiene un filtro posterior a la alineación para el porcentaje de identidad).
Personalmente también lo prefiero bowtie
porque tiene algo llamado n-
modo de alineación. En este modo, toda la lectura se divide en seed
y non-seed
regiones. Puede especificar la longitud de la región inicial y el límite de desajuste. Dado que para los miARN la región semilla (bases 2-8) es crítica para su función, generalmente establezco el seed
límite de desajuste en cero mientras permito uno o dos desajustes en la región non-seed
(tenga en cuenta que siempre comienza en 1).bowtie
seed
En general, le aconsejaría que elija en miRdeep
lugar de BLAST
. Sin embargo, miRdeep
no realiza inmediatamente una alineación contra las secuencias maduras. Mapea la ubicación de las secuencias maduras en las secuencias de pre-miARN (bucles de tallo) y luego alinea las lecturas con las secuencias de pre-miARN. Si la ubicación de las lecturas tiene una superposición significativa con la región madura (puede ajustar la ventana), la lectura se considera un miARN válido.
twckr
WYSIWYG
-e
80. Sin embargo, esto es para elfasta
archivo de las lecturas. Lae
opción es para el límite máximo de calidad para discrepancias. Parafasta
los archivos, la calidad predeterminada es 40; entonces 80 significa 2 desajustes. Esto no sería cierto si usafastq
archivosbli
WYSIWYG
twckr
bowtie
obtengo resultados bastante diferentes en comparación conBLAST
. Incluso configurando la opción -L en 22 (lo que debería evitar cualquier desajuste por lo que entendí) encuentro diferencias significativas en los resultados de ambos programas. ¿Tiene una explicación para este hallazgo?WYSIWYG