¿Cómo se define el tamaño de un gen?

¿Existe una definición acordada sobre cuántas bases de ácido nucleico constituyen un gen?

¿Si no, porque no? No estoy seguro de entender cómo se definen los tamaños exactos de los genes.

@ user19099 Sin embargo, seguramente hay un rango. De XX Mb a XX Mb.
sí, el rango es de 76 (ARNt) a 80781 (titina) pb en humanos.
¿En qué especie? ¿Usando qué definición de gen? Creo que lo que realmente estás preguntando es precisamente cuál es la definición de un gen (te sorprenderá saber que no es un concepto en blanco y negro). Si esa es su pregunta, por favor aclare.
He cambiado el título porque no era el original del poster y quien lo cambió anteriormente lo hizo por uno que no refleja el contenido de la pregunta. El interrogador claramente no está preguntando cuál es el tamaño promedio de un gen, aunque una de las respuestas hubiera deseado esto. Más bien parece querer saber la base para definir los límites de un gen. (Al principio pensé que él asumía que todos los genes tenían un tamaño específico, pero eso sería demasiado ingenuo. Seguramente es solo un dominio limitado del inglés).
@David El título de la publicación original era "cuál es la longitud promedio de un alelo". No se trata de que los respondedores deseen este título, por lo que probablemente sea más fácil para ellos responder. Sin embargo, debido a su edición, algunas respuestas parecen "no una respuesta", ahora. ¿Por qué no dejar que el OP aclare la pregunta ellos mismos?
@WYSIWYG Sea como sea. El título no reflejaba la pregunta, ni tampoco las respuestas que mencionas. En particular, no abordan la última oración. Volveré a escribir mi propia respuesta para aclarar esto. En cuanto al interrogador que aclara, espero que lo haga.
Hiciste una pregunta, la pregunta ha sido respondida y luego cambiaste la pregunta. Por favor, simplemente vuelva a editar, acepte la respuesta actual y abra una nueva publicación para su otra pregunta.
@terdon Concentrémonos primero en los humanos.
@user19099: El número del gen de la titina no es del todo cierto. TTN (gen que codifica para titina) en sí mismo tiene una longitud de aproximadamente 300 kb.
De hecho, TTN ni siquiera es el gen más grande. El más grande que encontré es CNTNAP2 con aprox. 2.3 MB
@alexdelarge gracias por esa información! En realidad, no busqué el gen más grande, solo busqué el tamaño de titin :)

Respuestas (3)

¿Existe una definición acordada sobre cuántas nucleobases constituyen un gen?

¿Si no, porque no?

No existe tal definición. Un gen es una región del ADN que se transcribe. Por lo general, un gen debe tener un sitio de inicio de la transcripción dictado por un promotor y un sitio de parada de la transcripción marcado por señales de terminación (como terminadores y señal poli-A, etc.)

Hay algunos ARN pequeños (~18 nt) que se producen a partir de TSS de genes habituales, pero probablemente sean productos de una elongación fallida. Estos no se consideran realmente genes, ya que son heterogéneos en tamaño y no están marcados por ningún límite.

Técnicamente, puede haber un límite mínimo en la longitud del gen que podría ser la longitud de ADN necesaria para que la ARN polimerasa se asiente y también incluya las señales de terminación. Como se indica en los comentarios, el gen más pequeño puede ser el tRNA. Sin embargo, el gen anotado más pequeño de las anotaciones de GENCODE es TRDD1 (¡¡solo 7nt de largo!!!). Esto no se basa en la predicción de genes; es anotado manualmente por el equipo de HAVANA .


¿Cuál es la longitud promedio de un gen?

Acabo de hacer un cálculo aproximado del archivo de anotación del genoma humano GENCODE (versión 23).

La longitud promedio de la transcripción parece estar alrededor de: 1.5kb
La longitud promedio del gen parece estar alrededor de: 29kbp

Los genes serían más largos que (o iguales) a sus transcritos correspondientes porque estos últimos se acortan debido al empalme.

Hice una gráfica de histograma de estas longitudes por conveniencia:

Distribución de la longitud de la transcripción

        ingrese la descripción de la imagen aquí


Distribución de longitud de genes

         ingrese la descripción de la imagen aquí

Tenga en cuenta los picos agudos a 100 pb. ¡Bastante interesante!


Remi ha mencionado al usuario 19099 que el gen más largo en humanos es titin. Parece que es el gen más largo en muchos otros animales diversos. Ver ¿Cuál es la transcripción más larga que se conoce? para más detalles.


Metodología (para que se puedan identificar las limitaciones)

Para calcular la distribución de longitud de genes : analicé el archivo GTF para "genes" (tercer campo, es decir, característica) y resté el quinto campo (parada) del cuarto (inicio).

Para calcular la distribución de la longitud de la transcripción: Obtuve el archivo fasta de la transcripción de las ubicaciones anotadas. Calculó sus longitudes. Trazó la distribución.

Dudé en hacer eso, ¡pero era demasiado perezoso! Buen trabajo. Tenga en cuenta, sin embargo, que su promedio es el doble del promedio de Strachan y Read (1999). ¿Sabes qué está causando estas diferentes estimaciones?
@ Remi.b Bueno, una explicación obvia podría ser que ahora tenemos más genes anotados en comparación con 1999.
...y anotamos genes pequeños de manera desproporcionada en 1999. De hecho, es posible. Sería interesante abrir un post sobre el tema.
@ Remi.b O posiblemente no se anotaron todos los genes. Con una mejor tecnología de secuenciación podemos mapear mejor los genes.
Muy informativo y especialmente el pico de 100 pb es muy interesante.
@ Remi.b, sí, recuerda que el genoma humano no se secuenció en el 99, por lo que esas estimaciones solo podían ser sobre lo que tenían. También tenga en cuenta que WYSIWIG se refiere a las transcripciones y que teníamos incluso menos información sobre transcripciones alternativas en 1999 que en la actualidad. Finalmente, considere regiones transcritas largas y no codificantes que podrían incluirse en el conjunto de datos que usó WYSIWIG (no lo sé) y que, en realidad, no se considerarían "genes" como tales. Bueno, dependiendo de cómo lo definas... :)
Oh... ok, eso tiene más sentido ahora. Gracias por dar seguimiento a este tema. +1
@WYSIWYG ¡Gracias por esto! Estoy tan feliz de ver una distribución de lo que constituye un "gen" humano.
@WYSIWYG esto es realmente genial. ¿Puede mostrarme el código fuente de su gráfico de longitud de genes para que pueda recrear este gráfico en otro organismo modelo?
@Tom Obtuve un vector de longitudes del archivo GTF. Es bastante fácil. Solo toma una diferencia de inicio y parada. Para el histograma, utilicé MATLAB. Esto también se puede hacer en R y Python.

¿Cómo se define el tamaño del gen?

El ADN está formado por 4 nucleótidos A, Ty . Una serie de tales nucleótidos constituye cualquier sección del genoma, incluidos los genes. El número de nucleótidos en un gen es lo que llamamos el tamaño del gen. Por supuesto, uno podría discutir sobre la definición del comienzo y el final exactos (y los métodos para determinarlos) de un gen, pero esta es una discusión para otro momento.CG

Debido a que el ADN es de doble cadena, en lugar de hablar de una secuencia de 10 nucleótidos, a menudo hablamos de una secuencia de 10 pares de bases (pb). Cuando se trata de una secuencia más larga, podemos usar el prefijo "kilo (k)" para indicar mil pares de bases. Por ejemplo: 12 kpb = 12 000 pb. Para valores aún mayores, se usa el prefijo "Mega (M)" para indicar un millón de pares de bases. Por ejemplo: 7 Mbp = 7.000 kbp = 7.000.000 pb.

Tamaño de gen promedio y mediano en humanos

Hay mucha variación en el tamaño del gen entre genes dentro de una especie, pero también entre especies. Tanto es así, que un promedio no transmite mucha información. Pero aquí está el tamaño genético promedio y mediano en humanos:

Los extremos en el genoma humano

Como dijo @user19099, el gen más largo en el genoma humano es la codificación TTN para la proteína titina . TTN tiene una longitud de unos 100 kbp. Los ARNt suelen ser secuencias muy cortas (76-90 nucleótidos), pero tenga en cuenta que estas secuencias nunca se traducirán en proteínas.

recomendación de libros

El libro A Short Guide to the Human Genome de Scherer es muy bueno para dar una idea de cómo es el genoma humano.

También podríamos discutir qué es realmente un gen y si existe una entidad como el gen tal como lo vemos. ¡Buena respuesta!
¡Gracias! Sí, el tamaño medio y mediano de un gen humano es más o menos lo que estaba preguntando (una de las preguntas de todos modos).

Interpretación de la pregunta

Usted pregunta dos cosas: 1. la cantidad de bases de ácido nucleico que constituye un gen, 2. (implícito) cómo se define el tamaño de los genes. La primera pregunta parece extrañamente ingenua, pero la segunda sugiere que esto puede ser un malentendido. Por lo tanto, tengo la intención de comenzar allí.

¿Cómo se definen los límites de un gen?

Los genes se definen en términos de su contenido de información, más obviamente para especificar proteínas que pueden conferir un fenotipo, pero también para especificar moléculas de ARN reguladoras y estructurales. La extensión de los genes, o la longitud del ADN que ocupan , está determinada por su contenido de información.

¿Están los genes contenidos en 'cajas' de ADN de tamaño similar?

Su primera oración sugiere que piensa que todos los genes tienen un número fijo de bases de ácido nucleico. Esta idea parece extraña ya que, al nivel más simple (p. ej., en bacterias), su contenido de información difiere en tamaño con el tamaño de sus productos de proteína o ARN. Sin embargo, quizás tenga la idea de que el genoma se divide en regiones de tamaño similar con un comienzo y un final discretos en los que se acomoda la información (el resto se empaqueta, por así decirlo). Este no es el caso.

Los genes ocupan diferentes longitudes de ADN.

De hecho, las longitudes de diferentes genes difieren dentro de una especie y entre especies. En procariotas simples esto se debe principalmente a que codifican proteínas (o ARN) de diferentes longitudes. En los eucariotas (donde los genes son generalmente mucho más grandes) esto se complica aún más debido al número y tamaño variable de sus intrones, que (normalmente) no codifican proteínas.

¿Cómo se determinan en la práctica los puntos finales de un gen?

Una respuesta simple a lo anterior (adecuada al nivel de su pregunta original) sería que los genes se extienden desde las regiones promotoras, donde la ARN polimerasa se une para la transcripción, hasta el punto de terminación de la transcripción. Así, en una primera aproximación, pueden definirse en la práctica por las regiones de ADN que especifican ARNm (o pre-ARNm) u otros ARN. El método moderno para hacer esto sería RNAseq.

(La situación es más complicada que esto en la práctica porque puede haber regiones del ADN que afectan la expresión pero no se transcriben. Pero no me preocuparía por eso en este momento).

@ShanZhengYang: me he esforzado por entender lo que estabas preguntando en tu pregunta. Si no lo he hecho, ¿podría aclararlo?
"Tu primera oración sugiere que piensas que todos los genes tienen un número fijo de bases de ácido nucleico". Lo siento, esa no era mi intención.
Dentro de mi pregunta, hice varias preguntas, lo que ha causado cierta confusión. Gracias, "¿Cómo se determinan en la práctica los puntos finales de un gen?" fue de hecho una de mis preguntas anteriores. Todavía estamos investigando cómo partes del genoma dan lugar a fenotipos, por lo que no me quedó claro cómo podíamos estar tan seguros de los límites de los "genes" que dan como resultado "rasgos fenotípicos".
"puede haber regiones del ADN que afecten la expresión pero no se transcriban" Esto golpea el corazón de mi pregunta. Entonces... ¿cómo podrían estar tan claramente definidos estos límites de genes? Los datos de RNA-Seq no son tan limpios...
@ShanZhengYang — Gracias por tu aclaración. Disculpas si mi respuesta fue demasiado simplista. En cuanto al problema de los 'límites borrosos' imagino que la gente adopta un enfoque particular que permite comparaciones cuantitativas (entre especies, entre genes) que es indicativo aunque no sea perfecto. Para las bacterias puede ser fácil identificar promotores y señales de terminación y utilizarlos; para genes de mamíferos, un enfoque de RNA seq con un genoma anotado puede ser más práctico. Se pueden hacer diferentes suposiciones en diferentes casos.