¿Existe una definición acordada sobre cuántas bases de ácido nucleico constituyen un gen?
¿Si no, porque no? No estoy seguro de entender cómo se definen los tamaños exactos de los genes.
¿Existe una definición acordada sobre cuántas nucleobases constituyen un gen?
¿Si no, porque no?
No existe tal definición. Un gen es una región del ADN que se transcribe. Por lo general, un gen debe tener un sitio de inicio de la transcripción dictado por un promotor y un sitio de parada de la transcripción marcado por señales de terminación (como terminadores y señal poli-A, etc.)
Hay algunos ARN pequeños (~18 nt) que se producen a partir de TSS de genes habituales, pero probablemente sean productos de una elongación fallida. Estos no se consideran realmente genes, ya que son heterogéneos en tamaño y no están marcados por ningún límite.
Técnicamente, puede haber un límite mínimo en la longitud del gen que podría ser la longitud de ADN necesaria para que la ARN polimerasa se asiente y también incluya las señales de terminación. Como se indica en los comentarios, el gen más pequeño puede ser el tRNA. Sin embargo, el gen anotado más pequeño de las anotaciones de GENCODE es TRDD1 (¡¡solo 7nt de largo!!!). Esto no se basa en la predicción de genes; es anotado manualmente por el equipo de HAVANA .
¿Cuál es la longitud promedio de un gen?
Acabo de hacer un cálculo aproximado del archivo de anotación del genoma humano GENCODE (versión 23).
La longitud promedio de la transcripción parece estar alrededor de: 1.5kb
La longitud promedio del gen parece estar alrededor de: 29kbp
Los genes serían más largos que (o iguales) a sus transcritos correspondientes porque estos últimos se acortan debido al empalme.
Hice una gráfica de histograma de estas longitudes por conveniencia:
Distribución de la longitud de la transcripción
Distribución de longitud de genes
Tenga en cuenta los picos agudos a 100 pb. ¡Bastante interesante!
Remi ha mencionado al usuario 19099 que el gen más largo en humanos es titin. Parece que es el gen más largo en muchos otros animales diversos. Ver ¿Cuál es la transcripción más larga que se conoce? para más detalles.
Para calcular la distribución de longitud de genes : analicé el archivo GTF para "genes" (tercer campo, es decir, característica) y resté el quinto campo (parada) del cuarto (inicio).
Para calcular la distribución de la longitud de la transcripción: Obtuve el archivo fasta de la transcripción de las ubicaciones anotadas. Calculó sus longitudes. Trazó la distribución.
¿Cómo se define el tamaño del gen?
El ADN está formado por 4 nucleótidos A
, T
y . Una serie de tales nucleótidos constituye cualquier sección del genoma, incluidos los genes. El número de nucleótidos en un gen es lo que llamamos el tamaño del gen. Por supuesto, uno podría discutir sobre la definición del comienzo y el final exactos (y los métodos para determinarlos) de un gen, pero esta es una discusión para otro momento.C
G
Debido a que el ADN es de doble cadena, en lugar de hablar de una secuencia de 10 nucleótidos, a menudo hablamos de una secuencia de 10 pares de bases (pb). Cuando se trata de una secuencia más larga, podemos usar el prefijo "kilo (k)" para indicar mil pares de bases. Por ejemplo: 12 kpb = 12 000 pb. Para valores aún mayores, se usa el prefijo "Mega (M)" para indicar un millón de pares de bases. Por ejemplo: 7 Mbp = 7.000 kbp = 7.000.000 pb.
Tamaño de gen promedio y mediano en humanos
Hay mucha variación en el tamaño del gen entre genes dentro de una especie, pero también entre especies. Tanto es así, que un promedio no transmite mucha información. Pero aquí está el tamaño genético promedio y mediano en humanos:
Los extremos en el genoma humano
Como dijo @user19099, el gen más largo en el genoma humano es la codificación TTN para la proteína titina . TTN tiene una longitud de unos 100 kbp. Los ARNt suelen ser secuencias muy cortas (76-90 nucleótidos), pero tenga en cuenta que estas secuencias nunca se traducirán en proteínas.
recomendación de libros
El libro A Short Guide to the Human Genome de Scherer es muy bueno para dar una idea de cómo es el genoma humano.
Interpretación de la pregunta
Usted pregunta dos cosas: 1. la cantidad de bases de ácido nucleico que constituye un gen, 2. (implícito) cómo se define el tamaño de los genes. La primera pregunta parece extrañamente ingenua, pero la segunda sugiere que esto puede ser un malentendido. Por lo tanto, tengo la intención de comenzar allí.
¿Cómo se definen los límites de un gen?
Los genes se definen en términos de su contenido de información, más obviamente para especificar proteínas que pueden conferir un fenotipo, pero también para especificar moléculas de ARN reguladoras y estructurales. La extensión de los genes, o la longitud del ADN que ocupan , está determinada por su contenido de información.
¿Están los genes contenidos en 'cajas' de ADN de tamaño similar?
Su primera oración sugiere que piensa que todos los genes tienen un número fijo de bases de ácido nucleico. Esta idea parece extraña ya que, al nivel más simple (p. ej., en bacterias), su contenido de información difiere en tamaño con el tamaño de sus productos de proteína o ARN. Sin embargo, quizás tenga la idea de que el genoma se divide en regiones de tamaño similar con un comienzo y un final discretos en los que se acomoda la información (el resto se empaqueta, por así decirlo). Este no es el caso.
Los genes ocupan diferentes longitudes de ADN.
De hecho, las longitudes de diferentes genes difieren dentro de una especie y entre especies. En procariotas simples esto se debe principalmente a que codifican proteínas (o ARN) de diferentes longitudes. En los eucariotas (donde los genes son generalmente mucho más grandes) esto se complica aún más debido al número y tamaño variable de sus intrones, que (normalmente) no codifican proteínas.
¿Cómo se determinan en la práctica los puntos finales de un gen?
Una respuesta simple a lo anterior (adecuada al nivel de su pregunta original) sería que los genes se extienden desde las regiones promotoras, donde la ARN polimerasa se une para la transcripción, hasta el punto de terminación de la transcripción. Así, en una primera aproximación, pueden definirse en la práctica por las regiones de ADN que especifican ARNm (o pre-ARNm) u otros ARN. El método moderno para hacer esto sería RNAseq.
(La situación es más complicada que esto en la práctica porque puede haber regiones del ADN que afectan la expresión pero no se transcriben. Pero no me preocuparía por eso en este momento).
ShanZhengYang
otro 'homo sapiens'
terdón
David
WYSIWYG
David
Remi.b
ShanZhengYang
AlexDeLarge
AlexDeLarge
otro 'homo sapiens'