¿Por qué los científicos pensaron que los humanos tenían 100 000 genes (antes del Proyecto Genoma Humano)?

Uno de los principales resultados del Proyecto Genoma Humano (HGP) fue que los humanos tienen muchos menos genes separados de lo que se pensaba anteriormente. De un artículo de 2004 sobre el HGP :

Francis S. Collins, director del Instituto Nacional de Investigación del Genoma Humano (NHGRI, por sus siglas en inglés), dijo: "Hace solo una década, la mayoría de los científicos pensaban que los humanos tenían alrededor de 100 000 genes. Cuando analizamos el borrador de trabajo de la secuencia del genoma humano hace tres años, estimó que había alrededor de 30 000 a 35 000 genes, lo que sorprendió a muchos. Este nuevo análisis reduce ese número aún más [a 20 000-25 000] y nos brinda la imagen más clara hasta ahora de nuestro genoma".

¿En qué se basó la antigua estimación de 100.000? Supongo que en 1994 nadie había secuenciado todo el proteoma...

Como señala Remi.b, la estimación de 100.000 genes puede estar basada en la hipótesis de un gen, una enzima . Si eso es cierto, ¿la gente antes del proyecto del genoma humano pensaba que había 100.000 actividades enzimáticas distintas? Si es así, ¿qué experimentos/datos se usaron para establecer ese número?

Se subestimó la importancia y la cantidad de ADN no codificante.

Respuestas (3)

El genoma humano es de 3,2 Gbp (giga = miles de millones de pares de bases). Si asume que hay 100k genes, esto produce alrededor de 32kbp (kilo = miles de pares de bases) por gen.

Antes del proyecto del genoma humano, digamos antes de 1990, la gente aislaba muchos genes de tejidos humanos. Puede usar Google Scholar para encontrar documentos relevantes. Desde la búsqueda rápida, puede ver que el rango es bastante grande:

  • "Gen del factor VIII humano de 186.000 pares de bases (pb)"
  • "El gen TF humano abarca 12,4 kbp"

Entonces puede ver cómo uno podría adivinar que el tamaño "promedio" del gen está en algún lugar alrededor de 30 kbp, si aún no ha encontrado demasiados genes. Mientras que después de la secuenciación del genoma, sabemos que los genes tienen una longitud de 100-10000 pb. Creo que el problema era que aún no había suficientes estadísticas para juzgar apropiadamente el "tamaño promedio del gen". Y resulta que la distribución es muy funky . Necesitas aislar muchos genes para reconstruir esa distribución.

Para 1990 ya se conocía el fenómeno del empalme alternativo . Lo que quizás no era del todo obvio es cuántos genes hay, cuáles son sus tamaños reales y cuántos genes se superponen .

Creo que fue más bien pensar que más ADN está codificando que en realidad, pero esa es otra posibilidad.
De Pertea et Salzberg, Genome Biol, 2010: Una estimación de 100.000 genes apareció en el informe conjunto de los Institutos Nacionales de Salud (NIH) y el Departamento de Energía (DOE) de 1990 sobre el Proyecto Genoma Humano; Aparentemente, esto se basó en un cálculo muy aproximado (e incorrecto) de que los genes humanos típicos tienen una longitud de 30.000 bases y que los genes cubren todo el genoma de 3 gigabases.
@tsttst gracias! Creo que también es interesante que hoy podamos echar un vistazo fácilmente a la literatura pasada (gracias a Google Scholar :)

En realidad, no hay necesidad de especular sobre la respuesta a esta pregunta, ya que los científicos han publicado sus estimaciones y metodología, como es su estilo. El siguiente artículo es una buena reseña:

Campos C, Adams MD, White O, Venter JC. 1994. ¿Cuántos genes hay en el genoma humano? Genética de la naturaleza 7:345-346.

A continuación hay algunos extractos truncados del artículo pero, si es posible, recomiendo leerlo completo y las referencias que contiene.

En proyectos piloto de secuenciación genómica... encontramos... un promedio de alrededor de un gen en 23,4 kb... Extrapolado para todo el genoma, predeciríamos alrededor de 129.000 genes; sin embargo, las regiones que secuenciamos se eligieron por su alto contenido de GC y, por lo tanto, por su riqueza genética. A lo sumo, la mitad del genoma, en las bandas ricas en GC, es probable que tenga una alta densidad de genes; si el resto tiene la mitad de la densidad que observamos, el genoma humano podría contener 97.000 genes. Pero la fracción pobre en genes del genoma probablemente tiene mucho menos de la mitad de la densidad de la fracción rica en genes... Si asumimos que el genoma comprende una mitad rica en genes con [23,4 kb por gen] y una mitad pobre en genes la mitad con una décima parte de esa densidad, obtenemos una estimación de unos 71.000 genes...

Hacer estimaciones basadas en el tamaño promedio de los genes se ha discutido en otra respuesta . Las diferentes estimaciones son el resultado de las diferentes suposiciones hechas: había muchas incógnitas en este momento. Puede leer sobre la correlación entre el contenido de GC y la densidad de genes en esta respuesta .

Sin embargo, las estimaciones que dan un contenido de genes mucho más bajo son fáciles de obtener... Wagner y sus colegas señalan que solo alrededor del 12% del genoma de un mamífero típico... se transcribe. Usando un tamaño de gen promedio de 18 kb obtenido de una lista de genes caracterizados... estiman un total de 20.000 genes. Asumiendo que 2.500 genes domésticos (a partir de estimaciones de Escherichia coli ) constituyen el 18% del número total de genes, los mismos autores obtuvieron una cifra aún menor de unos 14.000 genes humanos.

No tengo acceso a esta referencia, por lo que es difícil profundizar en su metodología, pero la cantidad de genes expresados ​​realmente depende del tipo de célula. Las células medulares tímicas, por ejemplo, expresan el 85% del genoma codificante . RNAseq también ha sugerido que se transcribe más del 90% del genoma , aunque esto es controvertido. Dicho todo esto, su primera estimación fue bastante acertada.

La medición de la cinética de reasociación del ARN sugiere que aproximadamente 10.000 genes distintos se expresan en una célula de mamífero típica, a partir de la cual Lewin estima un número total de genes de 20.000 a 40.000 .

Este es un análisis C0t con ARN en lugar de ADN (llamado R0t). Puedes leer más sobre esto aquí . Esta estimación también ha demostrado ser razonablemente precisa.

Usando análisis de restricción con la enzima sensible a la metilación HpaII, Antequerra y Bird estimaron que el genoma humano contiene 45.000 islas CpG. También informan que alrededor del 56% de los genes secuenciados contienen islas CpG y, por lo tanto, estiman un número total de genes de alrededor de 80,000 ... Este número, sin embargo, puede ser una sobreestimación, ya que incluso las secuencias de genes "completas" rara vez incluyen extensos 5 'o secuencia flanqueante 3' y, por lo tanto, puede formar islas CpG asociadas.

Ahora sabemos que hay unas 30.000 islas CpG en el genoma, de las cuales unas 9.000 son intragénicas y que el 72% de los genes tienen islas CpG . Esto revisaría su estimación a 30.000 genes.

Hemos utilizado una colección de 3.483 secuencias de codificación no redundantes como un genoma eficaz con el que comparar una colección de tecnologías ecológicamente racionales humanas... Si [este] conjunto de ADNc completo... es representativo de los genes humanos en general, la fracción de ADNc conocidos emparejadas por tecnologías ecológicamente racionales seleccionadas al azar debe ser igual a la fracción de nuevas secuencias emparejadas por tecnologías ecológicamente racionales seleccionadas al azar. Nuestro proyecto de secuenciación de EST humano ha identificado hasta ahora EST que coinciden con 1877 de las 3483 regiones de codificación únicas (54 %). Por lo tanto, podemos estimar que las tecnologías ecológicamente racionales novedosas que hemos secuenciado representan aproximadamente el 54 % de los genes humanos previamente desconocidos... Para estimar cuántos genes identifican estas tecnologías ecológicamente racionales, nosotros... [agrupamos] las tecnologías ecológicamente racionales. Este paso redujo 65 297 EST a 40 077 grupos... lo que indica que el nuevo conjunto de EST era un 40 % redundante. Entonces podemos calcular un número esperado de genes humanos como: 40,77.700 genes. Este cálculo es una sobreestimación, ya que el procedimiento de agrupación no puede identificar tecnologías ecológicamente racionales de la misma transcripción a menos que se superpongan. Si la verdadera redundancia media es del 50 %, predecimos unos 64.000 genes; si la verdadera redundancia media es del 60%, predecimos 52.000 genes.

Aunque dieron cuenta del empalme alternativo, se hicieron suposiciones sobre cuán representativa era su colección de secuencias de codificación. Parece que uno de los problemas en este momento fue que muchas de las sobreestimaciones realizadas, utilizando diferentes métodos, más o menos concuerdan entre sí. Desafortunadamente, muchas de las suposiciones no se mantuvieron.

No sé mucho sobre la evolución de los pensamientos sobre el tema, pero supongo que la estimación de 100,000 genes probablemente sea causada por las ideas de un gen: una enzima / proteína.

La hipótesis de un gen, una enzima es la idea de que los genes actúan a través de la producción de enzimas, con cada gen responsable de producir una sola enzima que a su vez afecta un solo paso en una vía metabólica.

La idea de que los genes están afectando las funciones celulares a través de la proteína que codifican no está tan desactualizada. Sin embargo, la idea de que un gen codifica una sola proteína única está un poco desactualizada.

En realidad, un solo gen puede codificar varias proteínas diferentes a través de un mecanismo llamado corte y empalme alternativo .

El empalme alternativo, o empalme diferencial, es un proceso regulado durante la expresión génica que da como resultado un solo gen que codifica múltiples proteínas. En este proceso, los exones particulares de un gen pueden incluirse o excluirse del ARN mensajero (ARNm) procesado final producido a partir de ese gen. En consecuencia, las proteínas traducidas a partir de ARNm empalmados alternativamente contendrán diferencias en su secuencia de aminoácidos y, a menudo, en sus funciones biológicas [..]. En particular, el empalme alternativo permite que el genoma humano dirija la síntesis de muchas más proteínas de las que cabría esperar de sus 20.000 genes codificadores de proteínas.

Por lo tanto, la estimación original del número de genes probablemente se alineó con el número observado de proteínas al suponer que hay una función uno a uno de gen a proteína (como en la hipótesis de un gen, una proteína).

Tiene sentido. Sin embargo, lo que quiero saber es de dónde vino ese número en particular. En términos cuantitativos, ¿qué experimentos o líneas de razonamiento conducen a 100.000? Está (básicamente) dentro de un orden de magnitud de la respuesta correcta, por lo que asumo (quizás incorrectamente) que la estimación se basó originalmente en algunos números sólidos de alguna parte. Por ejemplo, ¿había alguna razón para pensar que había 100 000 actividades enzimáticas distintas?
La estimación original probablemente se basó en el número de proteínas. Lo aclararé en mi respuesta.
Gracias por la actualización. Sin embargo, todavía falta una pieza. ¿Cómo establecieron 100.000 como el recuento probable de proteínas distintas? ¿Hubo un experimento que existió en la era pre-ómica que pudo resolver la presencia de miles (o decenas de miles) de proteínas en una sola muestra? ¿O fue simplemente una suposición informada basada en décadas de varias observaciones?
No sé... :DI asumiría que quien haya identificado una secuencia de proteína la cargaría en una base de datos compartida y la comparación entre secuencias de proteínas (algunas ancestrales equivalentes a BLAST) permitieron estimar la cantidad de proteínas encontradas en humanos.