He oído que un genoma de referencia, como el de los humanos, se genera eligiendo aleatoriamente muestras de un grupo de donantes. Pero, ¿por qué llamamos referencia a la secuencia de ADN generada? ¿Por qué deberíamos creer que esas pocas muestras pueden representar a todos los humanos, de los cuales debemos alinearnos?
La principal razón es que las diferencias genéticas entre individuos de la misma especie son minúsculas . Para la gran mayoría de los estudios, simplemente pueden ignorarse.
Las diferencias entre los individuos suelen ser (no siempre, pero en su mayoría) diferencias en los genotipos de SNP. Estas son diferencias de un solo nucleótido que, si bien pueden tener un efecto fenotípico, en realidad no afectan la capacidad de alineamiento de las secuencias. El software de alineación de secuencias está diseñado para poder lidiar con diferencias tan pequeñas. Por ejemplo, considere estas dos secuencias aleatorias:
>seq1
ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
>seq2
GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG
Si los alineamos, obtendremos:
seq1 ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
seq2 GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG
*** ******** ******* ******* ****
Como puede ver, a pesar de las pequeñas diferencias en la secuencia, los dos se pueden alinear muy bien. Lo mismo es cierto cuando miras datos reales. Mi gen de la hemoglobina, por ejemplo, se alineará perfectamente tanto con el suyo como con el del genoma de referencia. De hecho, es casi seguro que serán idénticos o, en el mejor de los casos, tendrán un par de residuos diferentes.
Entonces, cuando hacemos un trabajo que no se trata de estudiar polimorfismos específicos, necesitamos un genoma representativo. Cualquiera servirá, a menos que tenga una mutación particularmente grave, como una translocación cromosómica.
Los genomas de referencia no representan con precisión el conjunto de genes de una sola persona. Se crea a partir de fragmentos de varios donantes que, una vez construidos, se utilizan como plantilla para crear el genoma real. Aunque encontraremos que todos los humanos son idénticos en un 99,9 % y, de esa diminuta diferencia del 0,1 %, el genoma de referencia podría no ser 100 % idéntico al genoma real. Cada genoma de referencia se puede secuenciar de nuevo y las brechas se pueden reducir cada vez. Podemos llegar a un punto en el que podemos decir que la precisión es lo suficientemente alta como para ser utilizada como plataforma de referencia para construir el genoma real.
La misma pregunta se quedó en mi mente hace un mes. Incluso @terdon dio una respuesta explicativa, quiero hacer una pequeña contribución.
Cuando hice una pregunta similar en seqanswers * , uno de los usuarios proporcionó el enlace del estudio Ashley Lab en Stanford. Generaron los " Genomas sintéticos de referencia humana de alelo mayor ". (1)
Combinaron la secuencia de referencia actual (en ese momento era hg19), con los datos de 1000Genomes de variantes con altas frecuencias alélicas. Esta combinación crea tres genomas de referencia diferentes de tres poblaciones humanas (YRI, CEU y CHBJPT).
Estas secuencias de referencia sintéticas representan las variantes que se ven mucho en esta población. Es posible descargar estos genomas desde su página .
Dewey FE, et. Alabama. (2011) Riesgo genético escalonado del genoma completo en un cuarteto familiar utilizando una secuencia de referencia de alelo principal. PLoS Genetics 7(9): e1002280. http://dx.doi.org/10.1371/journal.pgen.1002280
Collar de Cantona
Collar de Cantona