Mapeo de una mutación a SNP conocido, 3 'UTR, miR

He analizado un archivo ssm (archivo de mutación única) de cáncer TCGA muy grande para obtener la información esencial.

El ssm tiene el siguiente formato:

['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type']
['NTRK1', 'ENSG00000198400', '1','156849827', 'Prostate Adenocarcinoma (TCGA, US)']

A partir de ahí, me gustaría tomar cada mutación y:

  1. Asigne la posición cromosómica a un SNP conocido (rs algo de salida).
  2. Ver si este snp se encuentra en un 3'UTR
  3. Ver si este snp se encuentra en un miRNA
  4. Sin sentido o mutación de sentido
  5. Cualquier genbank relevante, etc. ID

Me gustaría hacer este Python (creo que BioPython es adecuado para esto) para aplicaciones posteriores.

¿Cuál es la pregunta? También ayudaría si diera el formato del archivo que le gustaría procesar.
Ya analicé el formato para esto: code['Nombre del gen', 'ID del gen Ensembl', 'Cromosoma', 'Inicio del cromosoma', 'Tipo de cáncer'] ['NTRK1', 'ENSG00000198400', '1', ' 156849827', 'Adenocarcinoma de próstata (TCGA, EE. UU.)'] codeLa primera línea son características, la segunda es un ejemplo de lo que contiene. también conocido como nombre del gen, identificación del gen del conjunto, posición del cromosoma y tipo de cáncer. Me gustaría usar esta información (cualquiera o toda) para ubicar si estos SNP ocurren en algún miRNA o cualquier 3'UTR predominantemente.
También puede publicar en biostars.org para preguntas relacionadas con la bioinformática.

Respuestas (1)

En orden:

  1. Desafortunadamente, no hay una manera fácil de realizar consultas por lotes solo con la ubicación. Puede buscar SNP dentro de los genes aquí . (Puede encontrar el gen en el que se encuentra un SNP buscando la posición en un archivo de genoma humano anotado).
  2. Puede averiguar si está en 3'UTR comparándolo con una lista de 3'UTR humanos. La página del navegador del genoma de UCSC aquí ayudará : cambie la región a "genoma", formato de salida a "BED", haga clic en "obtener salida" y luego filtre por UTR de 3 '.
  3. Puede averiguar si está en un miARN comparando las posiciones de chr/start con la base de datos disponible aquí .
  4. Podría usar las ubicaciones cromosómicas y compararlas con la secuencia del genoma humano. Probablemente haya una mejor manera de hacer esto, pero el FASTA para cada cromosoma está disponible aquí .
  5. Puede usar los ID de SNP para mapear las accesiones de Genbank, según las instrucciones aquí .

No necesita BioPython para los primeros tres pasos, ya que solo analiza cada línea y compara valores. BioPython es útil para trabajar con archivos FASTA (parte 4). En general, esto se reduce principalmente a una pregunta de programación con todos estos recursos (básicamente, necesita dividir cada cadena para obtener los números/identificadores apropiados y luego comparar).

Así que me las arreglé para discutir las mutaciones y sus correspondientes 3'UTR. Todavía no veo una manera de determinar si esa mutación en la UTR está en un sitio objetivo de miARN. ¿Hay alguna idea sobre esto?
@prussiap: su pregunta original era para averiguar si una mutación estaba en miR; para averiguar si una mutación es un objetivo de miR, lo mejor que sé es DIANA. Desafortunadamente, la búsqueda va en sentido contrario: si busca un miR, puede encontrar sitios de destino predichos: diana.cslab.ece.ntua.gr