Datos TCGA y preguntas de diseño bioinformático para análisis SNP/mirna

Es la primera vez que publico en este foro, pero estaba buscando ayuda sobre los aspectos de datos de este proyecto.

Mis herramientas de elección estarían en python/R .

Objetivo: busco crear un perfil específico de la enfermedad de solo SNP y SNP en miARN y sitios de destino de miARN.

PARTE 1: TCGA Mi primer paso es usar datos TCGA que enumeran una tonelada de mutaciones dañinas en un formato LOH .txt. Me gustaría poder mapear esas mutaciones en SNP, genes o miARN (cualquiera que sea la entidad a la que pertenezcan). La hoja de datos de TCGA está aquí . Los datos de ejemplo están aquí. para el cáncer de mama. Supongo que también puedo usar estos datos de miARN y ARNm.

Preguntas aquí:

  1. ¿Cómo descifrar los datos de LOH para averiguar si son significativos y dónde se asignan?
  2. ¿Qué herramientas usar para el mapeo y qué formatos para los datos finales? ¿Fasta?

miARN/Objetivos y SNP El siguiente paso es obtener miARN y ARNm específicos para el cáncer y asignarles SNP. Supongo que usaré bases de datos de miARN dbSNP o Sanger para obtener miARN/objetivos y secuencias de semillas.

Estoy un poco perdido sobre cómo combinar todas estas piezas de información, qué formatos usar para la salida (vinculados a piezas individuales) y qué herramientas, si las hay, usar para recopilar todos estos datos usando python. Esta herramienta es herramienta útil mirdsnp.

Creo que le faltan algunos enlaces: no veo su hoja de datos de TCGA y no puedo decir si la última oración debe tener un enlace o no.
hola lo edite Creo que solo se me permitió un enlace, así que espero que se solucione... aquí está la [hoja de datos][1] el segundo es cómo incorporar los datos relacionados con miR y miRsnp. Gracias por atrapar los enlaces perdidos. Si no fui lo suficientemente claro o no proporcioné suficiente información, hágamelo saber y lo aclararé todo lo que pueda [1]: tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp
No puedo comentar sobre la ciencia, pero en lo que respecta al análisis, Biopython tiene excelentes herramientas para trabajar con datos con formato FASTA: consulte SeqRecord

Respuestas (1)

Puede echar un vistazo a este tutorial para comprender los archivos TCGA MAF. Y puede encontrar una lista de archivos TCGA MAF que contienen mutaciones asignadas a genes y miARN en https://www.synapse.org/#!Search:syn1710680

Gracias por las respuestas. @ dd3 Estaba planeando usar SeqRecord. Aunque no estoy seguro de cómo agregar características a los SNP para vincularlos a los miRNA u objetivos asociados, etc.
Esos son excelentes enlaces. ¿Cómo dedujiste el MAF? Estoy buscando perfiles de SNP y miARN de expresión para el nivel 3 [ tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp data]. para donde encontré esa información y menciona LOH y MAGE-TAB. Aquí hay otro [ enlace broadinstitute.org/collaboration/gcc/data/data-types ]... Así que supongo que para esta parte en particular estoy confundido sobre el formato de datos y el significado de los datos :). Por lo demás, se trata de cómo manipular los miARN y luego buscar por lotes con python/biopython. Gracias de nuevo.
Después de encontrar este [ wiki.nci.nih.gov/display/TCGA/Accessing+MAF+files link] me parece que los archivos de nivel 2 son archivos MAF. El nivel tres son .txt algo más.
@prussiap: no estoy familiarizado con los formatos de archivo, pero ¿podría usar diccionarios de Python, usando ID de SNP como claves?
Ese es el método que estoy usando hasta ahora. Esto elimina los duplicados, pero aún me gustaría hacer una descarga masiva de posiciones y anotaciones para cada SNP.
@prussiap: el nivel 2 son datos procesados ​​y el nivel 3 son datos interpretados/validados. Consulte la página Clasificación de nivel de datos de TCGA para obtener más detalles.