Datos sobre la posición de los genes en el genoma humano

Estoy tratando de obtener algunos datos sobre la posición de los genes en el genoma humano y necesito ayuda.

lo que probé

yo descarguéftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_18/gencode.v18.annotation.gtf.gz

Solo estoy interesado en la posición del gen, así que mantuve solo las primeras columnas.

awk -F "." '{print $1}' /Users/remi/Downloads/gencode.v18.annotation.gtf  >> HumanGenomePositions.txt

Esta operación tardará unos minutos. El archivo contiene información sobre la posición del exón y la transcripción. Subdividí la tabla para obtener solo las líneas que conciernen a los genes.

sed -i.bak '/gene/!d' HumanGenomePositions.txt 

Me quedo con 57445 entradas. 9872 son anotados por ENSEMBL y 47573 son anotados por HAVANA. Tenga en cuenta que hay una superposición parcial entre los dos. Según Iglesia et al. 2009, hay 19042 genes anotados en el genoma humano (informado de bionumbers ). ¡Obviamente hay algo en lo que me estoy equivocando!

Pregunta

¿Me pueden ayudar a obtener datos sobre posiciones de genes en humanos en un formato práctico (ver más abajo)?

start   end
15648   65487
129841  124984
...
Usé la <homework>etiqueta a pesar de que esto no es una tarea. La razón es que creo que la pregunta es lo suficientemente introductoria como para ser formulada en un curso de introducción a la bioinformática.
¿Por qué elegiste GTF vs. GFF3? Solo pregunto porque tengo mucha más experiencia usando GFF3; además, en GFF3, la columna 2 le indica el tipo de función de secuencia que se está anotando en una fila determinada, por lo que al usar cut -f 2 | ordenar | uniq -c puede obtener una lista de todas las funciones "conocidas" en ese archivo, así como un recuento del número de ellas. Una explicación potencialmente trivial para la discrepancia que encontró es que Church y otros solo cuentan los genes que codifican proteínas, mientras que su búsqueda de expresiones regulares coincidirá con genes de ARNt, genes de ARNr, genes de miARN, genes de ARNsno y pseudogenes, ¿no es así?
Una herramienta extremadamente útil (en mis manos) es la familia intermine de almacenes de datos. Principalmente he usado modMine y FlyMine, pero también hay HumanMine. Si tuviera una lista de identificadores para esos genes que codifican proteínas humanas, podría cargar esa lista en HumanMine y luego usar su herramienta de consulta para generar una tabla de las coordenadas genómicas para esos genes humanos.
Usé GTF completamente al azar. No conozco ninguno de estos formatos y nunca antes había oído hablar de la "familia de almacenes de datos interMine". Oh, ¿crees que podríamos tener alrededor de 30,000 genes que no codifican proteínas? Me parece enorme pero sería una buena explicación.

Respuestas (1)

Recomiendo filtrar usando transcript_typeel valor de la columna de descripción. Sólo necesitas proteine_codinggenes. Ahora tiene ~ 10K pseudogenes sin procesar adicionales, ~ 5K genes antisentido, ~ 4K miRNA, ~ 7K lincRNA y más de otras treinta categorías de cosas pseudogénicas sin procesar.

Por lo que sé, la versión actual de GRCh37 es la versión 19 , no la 18.

Oh, me perdí esta columna. Entonces, ¿realmente hay tantos genes que no codifican proteínas? Nunca hubiera acertado. Solo crearé un subconjunto de lo que necesito en función de esta columna. Gracias.
Tomé la versión 18 completamente al azar. Me sentí un poco perdido y simplemente elegí algunos datos aleatorios para comenzar a hacer cosas con ellos.
Pregunta complementaria: mirando ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/ puedo ver 24 lanzamientos. ¿Es el 19 realmente el más nuevo como dices?
@ Remi.b Sugerí usar la versión 19 porque supuse que usas la versión 18 y es el ensamblaje GRCh37. Como no tiene necesidades específicas, creo que está bien usar la última versión estable.
Gencode es la versión 24 afaik.