Estoy tratando de obtener algunos datos sobre la posición de los genes en el genoma humano y necesito ayuda.
lo que probé
yo descarguéftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_18/gencode.v18.annotation.gtf.gz
Solo estoy interesado en la posición del gen, así que mantuve solo las primeras columnas.
awk -F "." '{print $1}' /Users/remi/Downloads/gencode.v18.annotation.gtf >> HumanGenomePositions.txt
Esta operación tardará unos minutos. El archivo contiene información sobre la posición del exón y la transcripción. Subdividí la tabla para obtener solo las líneas que conciernen a los genes.
sed -i.bak '/gene/!d' HumanGenomePositions.txt
Me quedo con 57445 entradas. 9872 son anotados por ENSEMBL y 47573 son anotados por HAVANA. Tenga en cuenta que hay una superposición parcial entre los dos. Según Iglesia et al. 2009, hay 19042 genes anotados en el genoma humano (informado de bionumbers ). ¡Obviamente hay algo en lo que me estoy equivocando!
Pregunta
¿Me pueden ayudar a obtener datos sobre posiciones de genes en humanos en un formato práctico (ver más abajo)?
start end
15648 65487
129841 124984
...
Recomiendo filtrar usando transcript_type
el valor de la columna de descripción. Sólo necesitas proteine_coding
genes. Ahora tiene ~ 10K pseudogenes sin procesar adicionales, ~ 5K genes antisentido, ~ 4K miRNA, ~ 7K lincRNA y más de otras treinta categorías de cosas pseudogénicas sin procesar.
Por lo que sé, la versión actual de GRCh37 es la versión 19 , no la 18.
Remi.b
<homework>
etiqueta a pesar de que esto no es una tarea. La razón es que creo que la pregunta es lo suficientemente introductoria como para ser formulada en un curso de introducción a la bioinformática.perry
perry
Remi.b