Datos de ADN para GRCh38

Esta pregunta a continuación resultó ser completamente defectuosa. No tengo que hacer nada con los datos de DNase para GRCh38. Lo pregunté por la diferencia en el recuento de archivos entre hg38 y hg37, que pensé que era demasiado grande. Para hg38 hay 95 archivos *Peak.txt.gz . Para hg37 hay 236 *narrowPeak.gz , pero después de fusionar los pares PkRep1 y PkRep2 (probablemente FASTQ(SE/PE) representantes) obtenemos solo 123 archivos. Finalmente, esta diferencia (123 y 95) ya no parece ser grande y tenemos una situación aún más limpia sin PkRep1 y PkRep2.

Una vez más: no hay problema con los datos de DNase para el ensamblaje de GRCh38 y solo mi pregunta fue engañosa. Me gustaría disculparme por la confusión que introduje.


Estoy interesado en la actividad de transcripción, por lo tanto, estoy dispuesto a usar sitios de hipersensibilidad de ADNasa para detectar regiones donde los factores de transcripción pueden unirse. En el ensamblaje del genoma anterior GRCh37 / hg19, solía usar archivos de picos estrechos de estas dos fuentes (Universidad de Washington y Universidad de Duke, respectivamente) (archivos con sufijos .narrowPeak.gz ):

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeUwDnase/ http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeOpenChromDnase/

Con el ensamblaje más contemporáneo GRCh38 también hay algunas anotaciones adjuntas (archivos con Peak.txt.gz final ): http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

Y aquí surgen cuatro preguntas complementarias:

  1. Considere solo conjuntos de datos, que provienen de la Universidad de Washington. Para GRCh38 / hg19 conté 236 archivos de pico estrecho, mientras que para GRCh38 más nuevos solo hay 95 archivos. ¿Cómo explicar esta diferencia? ¿Los conjuntos de datos representan exactamente la misma cobertura, pero con una granularidad/precisión mucho menor (los conjuntos de datos que provienen de varias líneas de tejido se fusionan en menos archivos)?

  2. Con GRCg37 / hg19 tenemos tanto picos estrechos como picos anchos, mientras que GRCh38 viene con un solo tipo de archivo *Peak.txt.gz . ¿Significa que con la versión más nueva solo tenemos picos estrechos? ¿Están los anchos picos escondidos en algún otro lugar?

  3. Con GRCh37/hg19 tenemos dos fuentes separadas de datos de ADNasa: UofW y Duke. Para GRCh38, parece que solo están disponibles los conjuntos de datos UofW. ¿Hay alguna otra fuente de datos de ADNasa disponible, tal vez almacenada por separado (Duke u otro laboratorio)?

  4. Supongamos que está en mi lugar y le gustaría determinar las áreas de regulación cis. ¿Qué tipo de datos se pueden utilizar para hacerlo? ¿Conjuntos de datos Mabey DNase pero de otra fuente o incluso de un tipo de datos completamente diferente (NO DNase)?

Gracias de antemano por su respuesta.

No necesitas disculparte. ¡Su pregunta fue muy interesante en realidad y ayudará mucho a los futuros investigadores, estoy seguro! Te sugiero que lo reviertas a OP

Respuestas (1)

No estoy seguro de cuánto responde a su pregunta, pero eche un vistazo a la página de inicio de DeltaSVM : en su trabajo, Lee et al. he usado conjuntos de datos similares (creo que solo para GRCH37) y estoy seguro de que abordarán algunas de sus consultas.

Como usted mismo puede determinar mejor qué conjuntos de datos son los que necesita.