¿Dónde puedo encontrar datos de secuencias de ADN para el cáncer de colon?

Question

¿Dónde puedo encontrar datos de secuencias de ADN para el cáncer de colon?

datos
cáncer
Biología
genómica
análisis de secuencias

jonathan charlton

Soy un científico informático que estudia el reconocimiento de patrones y espero hacer algo de aprendizaje supervisado sobre el cáncer de colon. Desafortunadamente, me está costando muchísimo encontrar datos de ADN en el siguiente formato.

Benign DNA (Adenoma?)     Malignant DNA (Carcinoma?)
A                         A
A                         A
T                         G
G                         G
C                         C

Entonces, solo necesito dos columnas (no me importa si se reduce a 3 mil millones de registros/aminoácidos): una con el ADN bueno y otra con el malo.

¿Hay algún lugar donde pueda encontrar datos en ese formato específico?

perry

¿Visitaste dcc.icgc.org? Creo que es poco probable que alguien tenga los datos formateados exactamente como usted los describió, pero debería poder volver a formatearlos para adaptarlos a su proceso de análisis. Lo que puede descargar desde allí es un archivo VCF que solo enumera las posiciones en el tumor donde difiere del Normal, por lo que si realmente desea el archivo del genoma completo, deberá comenzar con la secuencia de referencia humana y cambiar los sitios para que coincidan. las anotaciones en el archivo VCF. NB el no tendrá una comparación entre un benigno y un maligno. solo tumor versus normal

Respuestas (1)

¿Dónde puedo encontrar datos de secuencias de ADN para el cáncer de colon?

¿Visitaste dcc.icgc.org? Creo que es poco probable que alguien tenga los datos formateados exactamente como usted los describió, pero debería poder volver a formatearlos para adaptarlos a su proceso de análisis. Lo que puede descargar desde allí es un archivo VCF que solo enumera las posiciones en el tumor donde difiere del Normal, por lo que si realmente desea el archivo del genoma completo, deberá comenzar con la secuencia de referencia humana y cambiar los sitios para que coincidan. las anotaciones en el archivo VCF. NB el no tendrá una comparación entre un benigno y un maligno. solo tumor versus normal

xb. · Answer 1

Puede probar los datos de "Adenocarcinoma de colon" realizados por el proyecto TCGA: http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/

El archivo con mutaciones llamadas por el tumor contra un normal emparejado, http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/MutSigNozzleReport2.0/COAD-TP.final_analysis_set.maf

Lo que necesita son las columnas 11, 12 y 13. La columna 11 es el alelo de referencia (su así llamado good DNA). Para cada fila, el alelo alternativo ( bad DNA) es la columna 12 si la columna 12 no es igual a la columna 11; de lo contrario, es la columna 13. -- Sería pan comido hacerlo codificando :)

En caso de que esté interesado, las columnas 16 y 17 son los ID de muestras normales y de tumor.

¡¡¡GRACIAS!!! Esto es exactamente lo que necesito, y gracias por facilitar las referencias de campo. Estoy usando R para extraer el formato .maf, por lo que aprecio mucho lo mucho más fácil que su respuesta hace que los datos se comprendan. Gracias también por la comprensión de las columnas 16 y 17. De verdad, muy útil, gracias.
¡Eres bienvenido! Aquí hay más información sobre el .mafarchivo, biostars.org/p/69222 , aunque podría ser un poco intensivo en biología.
Una pregunta rápida sobre esos datos: un par de alelos (registros para los alelos) tienen más de una letra. ¿Sabes de qué se trata? Solo quiero saber si debo registrarlo como A, T, G o C. Muchas gracias de nuevo.
Esos son indeles (inserciones o eliminaciones) que involucran múltiples nucleótidos. El resto son los llamados SNV, variaciones de un solo nucleótido. Dividir y fusionar sobre indels/SNV es una práctica común en el análisis de datos.

¿Dónde puedo encontrar datos de secuencias de ADN para el cáncer de colon?

jonathan charlton

perry

Respuestas (1)

xb.

jonathan charlton

xb.

jonathan charlton

xb.

¿Qué factores debo tener en cuenta al seleccionar un genoma de referencia para el mapeo?

Alteraciones de llamadas en los datos del exoma

¿Puede la metilación del ADN inducir cáncer de mama? [cerrado]

Cómo hacer un análisis del genoma completo de Mycobacterium tuberculosis multirresistente

¿Qué indica la superposición de secuencias?

Secuencia de referencia para definir polimorfismos de un solo nucleótido

¿Cómo calculan los secuenciadores NGS/de alto rendimiento las puntuaciones de calidad?

Sobre la apoptosis y los inhibidores

¿Por qué los genes supresores de tumores son recesivos?

¿Qué información se puede extraer del transcurso del tiempo de los datos de RNA-Seq?