¿Dónde puedo encontrar datos de secuencias de ADN para el cáncer de colon?

Soy un científico informático que estudia el reconocimiento de patrones y espero hacer algo de aprendizaje supervisado sobre el cáncer de colon. Desafortunadamente, me está costando muchísimo encontrar datos de ADN en el siguiente formato.

Benign DNA (Adenoma?)     Malignant DNA (Carcinoma?)
A                         A
A                         A
T                         G
G                         G
C                         C

Entonces, solo necesito dos columnas (no me importa si se reduce a 3 mil millones de registros/aminoácidos): una con el ADN bueno y otra con el malo.

¿Hay algún lugar donde pueda encontrar datos en ese formato específico?

¿Visitaste dcc.icgc.org? Creo que es poco probable que alguien tenga los datos formateados exactamente como usted los describió, pero debería poder volver a formatearlos para adaptarlos a su proceso de análisis. Lo que puede descargar desde allí es un archivo VCF que solo enumera las posiciones en el tumor donde difiere del Normal, por lo que si realmente desea el archivo del genoma completo, deberá comenzar con la secuencia de referencia humana y cambiar los sitios para que coincidan. las anotaciones en el archivo VCF. NB el no tendrá una comparación entre un benigno y un maligno. solo tumor versus normal

Respuestas (1)

Puede probar los datos de "Adenocarcinoma de colon" realizados por el proyecto TCGA: http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/

El archivo con mutaciones llamadas por el tumor contra un normal emparejado, http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/MutSigNozzleReport2.0/COAD-TP.final_analysis_set.maf

Lo que necesita son las columnas 11, 12 y 13. La columna 11 es el alelo de referencia (su así llamado good DNA). Para cada fila, el alelo alternativo ( bad DNA) es la columna 12 si la columna 12 no es igual a la columna 11; de lo contrario, es la columna 13. -- Sería pan comido hacerlo codificando :)

En caso de que esté interesado, las columnas 16 y 17 son los ID de muestras normales y de tumor.

¡¡¡GRACIAS!!! Esto es exactamente lo que necesito, y gracias por facilitar las referencias de campo. Estoy usando R para extraer el formato .maf, por lo que aprecio mucho lo mucho más fácil que su respuesta hace que los datos se comprendan. Gracias también por la comprensión de las columnas 16 y 17. De verdad, muy útil, gracias.
¡Eres bienvenido! Aquí hay más información sobre el .mafarchivo, biostars.org/p/69222 , aunque podría ser un poco intensivo en biología.
Una pregunta rápida sobre esos datos: un par de alelos (registros para los alelos) tienen más de una letra. ¿Sabes de qué se trata? Solo quiero saber si debo registrarlo como A, T, G o C. Muchas gracias de nuevo.
Esos son indeles (inserciones o eliminaciones) que involucran múltiples nucleótidos. El resto son los llamados SNV, variaciones de un solo nucleótido. Dividir y fusionar sobre indels/SNV es una práctica común en el análisis de datos.