¿Cómo convertir el formato de archivo FASTQ al formato de archivo GTF?

Tengo muchos archivos FASTQ (FASTQ es un estándar para almacenar la salida de instrumentos de secuenciación de alto rendimiento, como Illumina Genome Analyzer) y necesito convertirlos al formato GTF (gtf: formato de archivo utilizado para contener información sobre la estructura genética que característica importante es que es validable: dada una secuencia y un archivo GTF, uno puede comprobar que el formato es correcto. Esto reduce significativamente los problemas con el intercambio de datos entre grupos).

Supongo que (si esos formatos son estándares de archivos populares) debe existir algún software que convierta fácilmente la información de FASTQun archivo a GTFotro. ¿Alguien escuchó sobre algún software de este tipo (es posible que sea de código abierto)? Estoy familiarizado con R statistical packagey SASpuedo aprender Pythonsobre la marcha.

Gracias por cualquier ayuda.

Una búsqueda rápida en Google produce muchos resultados, sin mencionar los comentarios de abajo. Edite su pregunta e incluya más información sobre lo que tiene, lo que no tiene, lo que está tratando de hacer, con qué recursos tiene para trabajar, cuáles son sus limitaciones de tiempo, cuáles son sus objetivos finales, etc. No hay absolutamente ninguna garantía de que alguien aquí pueda responderla, o que sea sobre el tema aquí, ya que las preguntas "demasiado amplias" se cerrarán.

Respuestas (4)

Realmente debería leer sobre estos dos formatos de archivo. Como mencionó swbarnes , FASTQ y GTF contienen diferentes tipos de información. GTF almacena la anotación de una secuencia de referencia. Por ejemplo, un GTF para una secuencia genómica tendrá información sobre la ubicación de características como genes, transcripciones, exones, codón de inicio, etc.

FASTQ almacena la secuencia de una lectura obtenida de la secuenciación junto con los puntajes de calidad correspondientes a cada posición.

Como mencionaron otros, solicitar la interconversión de estos formatos de archivo no tiene sentido.


Supongo que lo que está preguntando es "¿ Cómo obtener anotaciones novedosas con un archivo FASTQ a la mano? "

Esto también depende de lo que quieras anotar .

La sexta columna en un archivo GTF se refiere a una puntuación ; puede asignar valores de expresión a diferentes características. Puede calcular la expresión utilizando los recuentos de lectura. Si se trata de lecturas de RNAseq, la expresión se puede medir utilizando paquetes como tophat-cufflinks , RNAstar u otros.

Si está haciendo ChIP-Seq, puede generar un GTF con una nueva función llamada TFBS (sitio de unión del factor de transcripción) y anotar las ubicaciones. Un paquete popular utilizado para el análisis de ChIP-Seq es MACS , que toma sus lecturas y genera el TFBS en forma de un archivo BED que también almacena coordenadas. Puede convertir BED a GTF . También puede asignar puntajes en función de los recuentos de lectura en diferentes TFBS.

Si no tiene un genoma de referencia o si la anotación del genoma de referencia está incompleta, primero debe ensamblar sus lecturas . Si tiene un genoma de referencia, puede optar por un ensamblaje guiado por referencia de las transcripciones para obtener nuevas transcripciones o variantes de empalme; Gemelos hace esto.

Si no tiene un genoma de referencia, debe optar por el ensamblaje de novo de su transcriptoma y anotar el transcriptoma para los codones de inicio u otras características de las transcripciones procesadas. Velvet y Trinity son paquetes populares que se ensamblan de nuevo.

Tu pregunta no es muy clara. ¿Cuál debería ser el contenido de su archivo GTF? Por lo general, los archivos GTF contienen información sobre dónde se encuentran los exones en un conjunto de secuencias de ADN. Determinar la ubicación y la estructura de exón/intrón de los genes no es una tarea técnica simple (es decir, una "conversión" como se indica en su pregunta), sino una gran área de investigación activa. La anotación de genes implica el uso de modelos estadísticos ( ab initiopredictores de genes), alineando evidencia experimental (EST, cDNA y potencialmente lecturas de RNA-Seq de Illumina) y, en algunos casos, refinamiento manual de predicciones computacionales. Si está trabajando con un organismo modelo como un ser humano, un ratón o una mosca de la fruta, los archivos GTF confiables están disponibles para su descarga desde bases de datos públicas. Si no está trabajando con un organismo modelo, entonces tendrá mucho trabajo por hacer para anotar un genoma desde cero.

¿O tal vez desea anotar nuevas isoformas empalmadas alternativamente para genes conocidos?

Sin más información, será difícil para nosotros ayudarlo a comprender cómo procesar sus datos sin procesar (Illumina lee en formato FASTQ) en un archivo GTF que aborde alguna pregunta biológica que le interese.

Un fastq contiene secuencias. Un gtf contiene coordenadas de dónde caen características como los exones en una secuencia de referencia. No puedes interconvertirlos, eso no tiene sentido.

Entonces, ¿es imposible crear un archivo gtf cuando solo tengo información del archivo fastq?
Si se trata de un organismo nuevo, y tiene un gran conjunto de lecturas de RNAseq muy agradable, en teoría podría alinearlo con su referencia y hacer un gtf a partir de eso. Pero en general no, quieres descargar un gtf apropiado para tu organismo, no hacer el tuyo propio.
No, quiero crear mi propio archivo. Tengo un gran conjunto muy agradable de lecturas de RNAseq y el archivo gtf no existe. Esa es la pregunta :)
No puedes simplemente convertir. Para empezar, debe alinearse con su referencia, como dice Daniel, hacer un gtf desde cero es un gran proyecto, hacerlo bien será mucho trabajo. Pero si eso es lo que tienes que hacer, entonces eso es lo que tienes que hacer.

La suite Tuxedo (Tophat, Bowtie y gemelos) utilizada para procesar datos RNA_seq, suponiendo que ese sea el origen de sus archivos .fastq, debería funcionar para usted.

https://ccb.jhu.edu/software/tophat/index.shtml