Tengo muchos archivos FASTQ (FASTQ es un estándar para almacenar la salida de instrumentos de secuenciación de alto rendimiento, como Illumina Genome Analyzer) y necesito convertirlos al formato GTF (gtf: formato de archivo utilizado para contener información sobre la estructura genética que característica importante es que es validable: dada una secuencia y un archivo GTF, uno puede comprobar que el formato es correcto. Esto reduce significativamente los problemas con el intercambio de datos entre grupos).
Supongo que (si esos formatos son estándares de archivos populares) debe existir algún software que convierta fácilmente la información de FASTQ
un archivo a GTF
otro. ¿Alguien escuchó sobre algún software de este tipo (es posible que sea de código abierto)? Estoy familiarizado con R statistical package
y SAS
puedo aprender Python
sobre la marcha.
Gracias por cualquier ayuda.
Realmente debería leer sobre estos dos formatos de archivo. Como mencionó swbarnes , FASTQ y GTF contienen diferentes tipos de información. GTF almacena la anotación de una secuencia de referencia. Por ejemplo, un GTF para una secuencia genómica tendrá información sobre la ubicación de características como genes, transcripciones, exones, codón de inicio, etc.
FASTQ almacena la secuencia de una lectura obtenida de la secuenciación junto con los puntajes de calidad correspondientes a cada posición.
Como mencionaron otros, solicitar la interconversión de estos formatos de archivo no tiene sentido.
Esto también depende de lo que quieras anotar .
La sexta columna en un archivo GTF se refiere a una puntuación ; puede asignar valores de expresión a diferentes características. Puede calcular la expresión utilizando los recuentos de lectura. Si se trata de lecturas de RNAseq, la expresión se puede medir utilizando paquetes como tophat-cufflinks , RNAstar u otros.
Si está haciendo ChIP-Seq, puede generar un GTF con una nueva función llamada TFBS (sitio de unión del factor de transcripción) y anotar las ubicaciones. Un paquete popular utilizado para el análisis de ChIP-Seq es MACS , que toma sus lecturas y genera el TFBS en forma de un archivo BED que también almacena coordenadas. Puede convertir BED a GTF . También puede asignar puntajes en función de los recuentos de lectura en diferentes TFBS.
Si no tiene un genoma de referencia o si la anotación del genoma de referencia está incompleta, primero debe ensamblar sus lecturas . Si tiene un genoma de referencia, puede optar por un ensamblaje guiado por referencia de las transcripciones para obtener nuevas transcripciones o variantes de empalme; Gemelos hace esto.
Si no tiene un genoma de referencia, debe optar por el ensamblaje de novo de su transcriptoma y anotar el transcriptoma para los codones de inicio u otras características de las transcripciones procesadas. Velvet y Trinity son paquetes populares que se ensamblan de nuevo.
Tu pregunta no es muy clara. ¿Cuál debería ser el contenido de su archivo GTF? Por lo general, los archivos GTF contienen información sobre dónde se encuentran los exones en un conjunto de secuencias de ADN. Determinar la ubicación y la estructura de exón/intrón de los genes no es una tarea técnica simple (es decir, una "conversión" como se indica en su pregunta), sino una gran área de investigación activa. La anotación de genes implica el uso de modelos estadísticos ( ab initiopredictores de genes), alineando evidencia experimental (EST, cDNA y potencialmente lecturas de RNA-Seq de Illumina) y, en algunos casos, refinamiento manual de predicciones computacionales. Si está trabajando con un organismo modelo como un ser humano, un ratón o una mosca de la fruta, los archivos GTF confiables están disponibles para su descarga desde bases de datos públicas. Si no está trabajando con un organismo modelo, entonces tendrá mucho trabajo por hacer para anotar un genoma desde cero.
¿O tal vez desea anotar nuevas isoformas empalmadas alternativamente para genes conocidos?
Sin más información, será difícil para nosotros ayudarlo a comprender cómo procesar sus datos sin procesar (Illumina lee en formato FASTQ) en un archivo GTF que aborde alguna pregunta biológica que le interese.
Un fastq contiene secuencias. Un gtf contiene coordenadas de dónde caen características como los exones en una secuencia de referencia. No puedes interconvertirlos, eso no tiene sentido.
La suite Tuxedo (Tophat, Bowtie y gemelos) utilizada para procesar datos RNA_seq, suponiendo que ese sea el origen de sus archivos .fastq, debería funcionar para usted.
MattDMo