¿Por qué el genoma de referencia es una referencia?

He oído que un genoma de referencia, como el de los humanos, se genera eligiendo aleatoriamente muestras de un grupo de donantes. Pero, ¿por qué llamamos referencia a la secuencia de ADN generada? ¿Por qué deberíamos creer que esas pocas muestras pueden representar a todos los humanos, de los cuales debemos alinearnos?

Buena pregunta. Es una peculiaridad de la historia: el trabajo inicial de secuenciación del genoma fue MUCHO demasiado costoso y MUCHO demasiado laborioso como para siquiera contemplar la secuenciación de múltiples genomas. Así, un genoma inicial (posteriormente ampliado a un par de genomas) se utilizó como "referencia". Sin embargo, los avances tecnológicos significan que ahora podemos secuenciar genomas por menos de $ 1000 en un día. Por lo tanto, el advenimiento de cosas como el proyecto 1000 genomas ( en.wikipedia.org/wiki/1000_Genomes_Project ).
Habiendo dicho eso, como señala la respuesta a continuación, la variación entre humanos es pequeña en comparación con las similitudes generales. Así, se puede generar una "referencia" a partir de una muestra de uno o pocos.

Respuestas (3)

La principal razón es que las diferencias genéticas entre individuos de la misma especie son minúsculas . Para la gran mayoría de los estudios, simplemente pueden ignorarse.

Las diferencias entre los individuos suelen ser (no siempre, pero en su mayoría) diferencias en los genotipos de SNP. Estas son diferencias de un solo nucleótido que, si bien pueden tener un efecto fenotípico, en realidad no afectan la capacidad de alineamiento de las secuencias. El software de alineación de secuencias está diseñado para poder lidiar con diferencias tan pequeñas. Por ejemplo, considere estas dos secuencias aleatorias:

>seq1
ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
>seq2
GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG

Si los alineamos, obtendremos:

seq1            ACCTTGCATCGGATCGAATTCGCGTTAGCGATCG
seq2            GCCTAGCATCGGACCGAATTCCCGTTAGCAATCG
                 *** ******** ******* ******* ****

Como puede ver, a pesar de las pequeñas diferencias en la secuencia, los dos se pueden alinear muy bien. Lo mismo es cierto cuando miras datos reales. Mi gen de la hemoglobina, por ejemplo, se alineará perfectamente tanto con el suyo como con el del genoma de referencia. De hecho, es casi seguro que serán idénticos o, en el mejor de los casos, tendrán un par de residuos diferentes.

Entonces, cuando hacemos un trabajo que no se trata de estudiar polimorfismos específicos, necesitamos un genoma representativo. Cualquiera servirá, a menos que tenga una mutación particularmente grave, como una translocación cromosómica.

Por poner alguna cifra, la homología media entre genomas humanos es de aprox. 99,5% . Como describió @terdon, esta homología relativamente alta (es decir, ~2 850 000 000 pares de bases del total de 3 000 000 000 pb del genoma humano serán idénticos) permite alinear cualquier secuencia humana con esta llamada referencia. Esto es, por supuesto, en el escenario de ninguna translocación cromosómica importante, lo que generalmente conduce a enfermedades.
@ vajra78 probablemente nunca lo hará. Estas diferencias son irrelevantes para la mayoría de los estudios. Casi nunca te preocupas por los genotipos individuales, a menos que se trate de un problema médico que involucre a un individuo específico. El punto aquí es la alineación y eso no se ve afectado por cambios tan pequeños. Los estudios a nivel de especie (observando la evolución o la regulación genética, etc.) rara vez, si acaso, necesitan tener en cuenta la variación dentro de la especie.

Los genomas de referencia no representan con precisión el conjunto de genes de una sola persona. Se crea a partir de fragmentos de varios donantes que, una vez construidos, se utilizan como plantilla para crear el genoma real. Aunque encontraremos que todos los humanos son idénticos en un 99,9 % y, de esa diminuta diferencia del 0,1 %, el genoma de referencia podría no ser 100 % idéntico al genoma real. Cada genoma de referencia se puede secuenciar de nuevo y las brechas se pueden reducir cada vez. Podemos llegar a un punto en el que podemos decir que la precisión es lo suficientemente alta como para ser utilizada como plataforma de referencia para construir el genoma real.

La misma pregunta se quedó en mi mente hace un mes. Incluso @terdon dio una respuesta explicativa, quiero hacer una pequeña contribución.

Cuando hice una pregunta similar en seqanswers * , uno de los usuarios proporcionó el enlace del estudio Ashley Lab en Stanford. Generaron los " Genomas sintéticos de referencia humana de alelo mayor ". (1)

Combinaron la secuencia de referencia actual (en ese momento era hg19), con los datos de 1000Genomes de variantes con altas frecuencias alélicas. Esta combinación crea tres genomas de referencia diferentes de tres poblaciones humanas (YRI, CEU y CHBJPT).

Estas secuencias de referencia sintéticas representan las variantes que se ven mucho en esta población. Es posible descargar estos genomas desde su página .

Dewey FE, et. Alabama. (2011) Riesgo genético escalonado del genoma completo en un cuarteto familiar utilizando una secuencia de referencia de alelo principal. PLoS Genetics 7(9): e1002280. http://dx.doi.org/10.1371/journal.pgen.1002280