He estado analizando los datos de cáncer de ovario de TCGA. En los datos de mutaciones somáticas , hay datos de mutaciones en todos los cromosomas ( 1-22 y X ), pero sorprendentemente, también encontré una ( solo una ) fila de mutaciones del cromosoma Y. ¿Qué puede significar?
Como referencia, he pegado esa fila a continuación:
icgc_mutation_id icgc_donor_id project_code chromosome chromosome_start
MU42454 DO28056 OV-US Y 13500742
chromosome_end chromosome_strand mutation_type
13500742 1 single base substitution
reference_genome_allele mutated_from_allele mutated_to_allele
G G A
consequence_type aa_mutation cds_mutation gene_affected transcript_affected
stop_gained R194* 580C>T ENSG00000183704 ENST00000331172
Esta pregunta se hizo hace más de seis años. Desde entonces, el conjunto de datos en cuestión se ha actualizado. Accedí al conjunto de datos del proyecto OV-US desde el portal de datos ICGC , específicamente simple_somatic_mutation.open.OV-US.tsv.gz
. El noveno campo de este archivo es chromosome
. Contando la ocurrencia de cada cromosoma, vemos que Y no está representado:
awk -F$'\t' '{print $9}' simple_somatic_mutation.open.OV-US.tsv | sed '1d' | sort -n | uniq -c
13171 X
39564 1
31363 2
24657 3
11021 4
16849 5
18643 6
19492 7
13067 8
11133 9
12090 10
24980 11
25608 12
3947 13
12728 14
12123 15
17554 16
30315 17
5669 18
29571 19
9054 20
3639 21
7084 22
Tenga en cuenta que icgc_mutation_id
MU42454 solo se asocia con leucemia mieloide aguda en un solo donante . Además, el esquema de búsqueda " Donor
ES DO28056
Y Mutation Location
ES ChrY
" arroja cero resultados del navegador de datos ICGC.
Entonces, parece que la inclusión de una mutación en el cromosoma Y en los datos de cáncer de ovario de TCGA fue un error que ya se ha corregido.
Remi.b
Científico fallido
Remi.b
MattDMo
Remi.b
Científico fallido