He analizado un archivo ssm (archivo de mutación única) de cáncer TCGA muy grande para obtener la información esencial.
El ssm tiene el siguiente formato:
['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type']
['NTRK1', 'ENSG00000198400', '1','156849827', 'Prostate Adenocarcinoma (TCGA, US)']
A partir de ahí, me gustaría tomar cada mutación y:
Me gustaría hacer este Python (creo que BioPython es adecuado para esto) para aplicaciones posteriores.
En orden:
No necesita BioPython para los primeros tres pasos, ya que solo analiza cada línea y compara valores. BioPython es útil para trabajar con archivos FASTA (parte 4). En general, esto se reduce principalmente a una pregunta de programación con todos estos recursos (básicamente, necesita dividir cada cadena para obtener los números/identificadores apropiados y luego comparar).
pitido
prusia
code
['Nombre del gen', 'ID del gen Ensembl', 'Cromosoma', 'Inicio del cromosoma', 'Tipo de cáncer'] ['NTRK1', 'ENSG00000198400', '1', ' 156849827', 'Adenocarcinoma de próstata (TCGA, EE. UU.)']code
La primera línea son características, la segunda es un ejemplo de lo que contiene. también conocido como nombre del gen, identificación del gen del conjunto, posición del cromosoma y tipo de cáncer. Me gustaría usar esta información (cualquiera o toda) para ubicar si estos SNP ocurren en algún miRNA o cualquier 3'UTR predominantemente.raygozag