Soy un científico informático que estudia el reconocimiento de patrones y espero hacer algo de aprendizaje supervisado sobre el cáncer de colon. Desafortunadamente, me está costando muchísimo encontrar datos de ADN en el siguiente formato.
Benign DNA (Adenoma?) Malignant DNA (Carcinoma?)
A A
A A
T G
G G
C C
Entonces, solo necesito dos columnas (no me importa si se reduce a 3 mil millones de registros/aminoácidos): una con el ADN bueno y otra con el malo.
¿Hay algún lugar donde pueda encontrar datos en ese formato específico?
Puede probar los datos de "Adenocarcinoma de colon" realizados por el proyecto TCGA: http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/
El archivo con mutaciones llamadas por el tumor contra un normal emparejado, http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/MutSigNozzleReport2.0/COAD-TP.final_analysis_set.maf
Lo que necesita son las columnas 11, 12 y 13. La columna 11 es el alelo de referencia (su así llamado good DNA
). Para cada fila, el alelo alternativo ( bad DNA
) es la columna 12 si la columna 12 no es igual a la columna 11; de lo contrario, es la columna 13. -- Sería pan comido hacerlo codificando :)
En caso de que esté interesado, las columnas 16 y 17 son los ID de muestras normales y de tumor.
.maf
archivo, biostars.org/p/69222 , aunque podría ser un poco intensivo en biología.
perry