¿Cómo podría identificar si los datos de RNA-seq dados son de extremo emparejado o de extremo único?

Necesito tener un conjunto de datos de RNA-Seq y, por lo tanto, visité el siguiente sitio NCBI-geo C. Elegans

En la parte del archivo complementario, hice clic en SRP/SRP051/SRP051702 ftp y descargué el archivo sra . Luego necesito convertirlo al formato de archivo fastq. Para este propósito, escuché que hay un sra-toolkit y dentro de él hay un archivo ejecutable fastq-dump. Sin embargo, para usarlo, primero tengo que averiguar si mi archivo sra contiene datos de lectura de un solo extremo o emparejados. Entonces, mi pregunta es: ¿cómo puedo saber el tipo de lecturas en el conjunto de datos (en el primer enlace)?

Sin ninguna información, utilicé el indicador --split_files del ejecutable fastq-dump y generó dos archivos de 14 Gb (ambos son exactamente 14.346.367.840 bytes) y sus nombres son SRR1741330_1.fastq y SRR1741330_2.fastq ¿Significa que mi conjunto de datos es extremo emparejado?

Como otra pregunta (diferente pero relacionada con la parte 1). En el archivo SRR1741330_1.fastq, en algunas líneas, las secuencias contienen diferentes caracteres como CCCFFFFFGFHHHGJJJJI#1?FEIGGI ... Antes de examinar estos archivos, pensé que estas líneas de secuencia solo deberían contener las letras A, G, T y C . ¿Qué son estos F,H,J,I,#,? etc..

Mis preguntas pueden ser triviales y sin sentido, pero como soy una persona totalmente nueva en esta área, no pude entenderlas.

EDITAR

nueva pregunta

Me pregunto una cosa más, ya que está relacionado con la parte anterior de mi pregunta, la hice aquí en lugar de crear una nueva pregunta. Después de generar el archivo fastq con el ejecutable dump_fastq, todas las secuencias tienen una longitud de 50. ¿Se debe a los parámetros del ejecutable dump_fastq o está relacionado con el archivo sra original? En otras palabras, ¿podría aumentar esta longitud?

Respuestas (1)

Para averiguar si un conjunto de datos era de extremo emparejado o de extremo único, vaya a SRA, haga clic en una ejecución y busque en "Biblioteca". Los conjuntos de datos de extremos emparejados normalmente tendrán "Diseño: emparejado". Tenga en cuenta que las personas no siempre marcan esto correctamente, lo que causa un sinfín de dolores de cabeza.

Con respecto a líneas como "CCCFFFFFGFHHHGJJJJI#1?FEIGGI", esa es la línea de puntuación de calidad. Mire el artículo fastq en wikipedia para obtener más detalles.

Editar: con respecto a la parte actualizada de su pregunta, no, no puede aumentar esta longitud. Las secuencias producidas por las máquinas de Illumina tienen una duración fija y esa duración (o la duración que se haya enviado) es lo que obtiene. Como regla general, obtendrá la secuencia que se actualizó (a menos que olvide la opción --split3 (o como se llame)).

@Devon_Ryan gracias por su ayuda, vaya a SRA, creo que se refiere al archivo sra que descargué del enlace que proporcioné arriba, ¿verdad?
Okey, ahora lo encontré, está en el navegador
Exactamente, me refiero a la página web para una ejecución en el sitio web de SRA. La misma información también suele estar disponible en GEO (haga clic en una de las muestras y lea la sección "Procesamiento de datos"), pero normalmente es un poco más rápido ir a SRA.
@Devon_Ryan gracias de nuevo, ¿podría volver a mirar mi pregunta? La actualicé.
He actualizado mi respuesta. La respuesta corta es que obtienes lo que se cargó, que normalmente es todo lo que se secuenció.
@Devon_Ryan gracias por última vez :) Entonces, como entendí de su respuesta actualizada, los datos de rna-seq se proporcionaron por la longitud de 50 pares de bases leídos en ese momento.
@stackunderflow Sí, exactamente.