Datos TCGA y preguntas de diseño bioinformático para análisis SNP/mirna

Question

Datos TCGA y preguntas de diseño bioinformático para análisis SNP/mirna

tcga
Biología
genética
bioinformática

prusia

Es la primera vez que publico en este foro, pero estaba buscando ayuda sobre los aspectos de datos de este proyecto.

Mis herramientas de elección estarían en python/R .

Objetivo: busco crear un perfil específico de la enfermedad de solo SNP y SNP en miARN y sitios de destino de miARN.

PARTE 1: TCGA Mi primer paso es usar datos TCGA que enumeran una tonelada de mutaciones dañinas en un formato LOH .txt. Me gustaría poder mapear esas mutaciones en SNP, genes o miARN (cualquiera que sea la entidad a la que pertenezcan). La hoja de datos de TCGA está aquí . Los datos de ejemplo están aquí. para el cáncer de mama. Supongo que también puedo usar estos datos de miARN y ARNm.

Preguntas aquí:

¿Cómo descifrar los datos de LOH para averiguar si son significativos y dónde se asignan?
¿Qué herramientas usar para el mapeo y qué formatos para los datos finales? ¿Fasta?

miARN/Objetivos y SNP El siguiente paso es obtener miARN y ARNm específicos para el cáncer y asignarles SNP. Supongo que usaré bases de datos de miARN dbSNP o Sanger para obtener miARN/objetivos y secuencias de semillas.

Estoy un poco perdido sobre cómo combinar todas estas piezas de información, qué formatos usar para la salida (vinculados a piezas individuales) y qué herramientas, si las hay, usar para recopilar todos estos datos usando python. Esta herramienta es herramienta útil mirdsnp.

pitido

Creo que le faltan algunos enlaces: no veo su hoja de datos de TCGA y no puedo decir si la última oración debe tener un enlace o no.

prusia

hola lo edite Creo que solo se me permitió un enlace, así que espero que se solucione... aquí está la [hoja de datos][1] el segundo es cómo incorporar los datos relacionados con miR y miRsnp. Gracias por atrapar los enlaces perdidos. Si no fui lo suficientemente claro o no proporcioné suficiente información, hágamelo saber y lo aclararé todo lo que pueda [1]: tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp

pitido

No puedo comentar sobre la ciencia, pero en lo que respecta al análisis, Biopython tiene excelentes herramientas para trabajar con datos con formato FASTA: consulte SeqRecord

Respuestas (1)

Datos TCGA y preguntas de diseño bioinformático para análisis SNP/mirna

Creo que le faltan algunos enlaces: no veo su hoja de datos de TCGA y no puedo decir si la última oración debe tener un enlace o no.
hola lo edite Creo que solo se me permitió un enlace, así que espero que se solucione... aquí está la [hoja de datos][1] el segundo es cómo incorporar los datos relacionados con miR y miRsnp. Gracias por atrapar los enlaces perdidos. Si no fui lo suficientemente claro o no proporcioné suficiente información, hágamelo saber y lo aclararé todo lo que pueda [1]: tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp
No puedo comentar sobre la ciencia, pero en lo que respecta al análisis, Biopython tiene excelentes herramientas para trabajar con datos con formato FASTA: consulte SeqRecord

reacción helada · Answer 1

reacción helada

Puede echar un vistazo a este tutorial para comprender los archivos TCGA MAF. Y puede encontrar una lista de archivos TCGA MAF que contienen mutaciones asignadas a genes y miARN en https://www.synapse.org/#!Search:syn1710680

prusia

Gracias por las respuestas. @ dd3 Estaba planeando usar SeqRecord. Aunque no estoy seguro de cómo agregar características a los SNP para vincularlos a los miRNA u objetivos asociados, etc.

prusia

Esos son excelentes enlaces. ¿Cómo dedujiste el MAF? Estoy buscando perfiles de SNP y miARN de expresión para el nivel 3 [ tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp data]. para donde encontré esa información y menciona LOH y MAGE-TAB. Aquí hay otro [ enlace broadinstitute.org/collaboration/gcc/data/data-types ]... Así que supongo que para esta parte en particular estoy confundido sobre el formato de datos y el significado de los datos :). Por lo demás, se trata de cómo manipular los miARN y luego buscar por lotes con python/biopython. Gracias de nuevo.

prusia

Después de encontrar este [ wiki.nci.nih.gov/display/TCGA/Accessing+MAF+files link] me parece que los archivos de nivel 2 son archivos MAF. El nivel tres son .txt algo más.

pitido

@prussiap: no estoy familiarizado con los formatos de archivo, pero ¿podría usar diccionarios de Python, usando ID de SNP como claves?

prusia

Ese es el método que estoy usando hasta ahora. Esto elimina los duplicados, pero aún me gustaría hacer una descarga masiva de posiciones y anotaciones para cada SNP.

dinesh cyanam

@prussiap: el nivel 2 son datos procesados y el nivel 3 son datos interpretados/validados. Consulte la página Clasificación de nivel de datos de TCGA para obtener más detalles.

Datos TCGA y preguntas de diseño bioinformático para análisis SNP/mirna

prusia

pitido

prusia

pitido

Respuestas (1)

reacción helada

prusia

prusia

prusia

pitido

prusia

dinesh cyanam

Mapeo de una mutación a SNP conocido, 3 'UTR, miR

¿Qué información se puede extraer del transcurso del tiempo de los datos de RNA-Seq?

¿Qué significa “genes en el tronco del árbol evolutivo”?

Agrupación de códigos de enfermedad OMIM

¿Cómo puedo encontrar la secuencia de ARNm para un gen procariótico específico?

diferencia en las instrucciones genéticas entre hombres y mujeres [duplicado]

¿Qué es el análisis amplio del genoma y el análisis específico del locus?

¿Qué significa el número de sonda y la segmentación en los datos de variación del número de copias (CNV)?

¿En qué se diferencian los archivos PLINK y los archivos HapMap Phased?

Convertir el nombre del gen en uniprot ID