¿Cuál es la distribución de frecuencia de cada base en una secuencia de ADN? [cerrado]

¿Podemos decir que la distribución de frecuencias de cada base en una secuencia de ADN es equiprobable?


Después de la respuesta negativa; Reformulo: ¿Hay algún caso de uso en el que la distribución de frecuencias de las bases sea equiprobable?

Solo haciendo una conjetura educada... Las secuencias de ADN no son aleatorias, por lo tanto, la probabilidad de que cualquier base esté presente en una ubicación particular no es igual para todas las bases.
Mi pregunta era sobre su frecuencia.
? Entonces, ¿su pregunta debería decir "¿cuál es la distribución de probabilidad" o "¿cuál es la distribución de frecuencia"? Supongo que no estoy siguiendo tu pregunta. ¿Puedes ayudarme?
No, no es. Caso muy simple: ver porcentaje de GC.

Respuestas (2)

La frecuencia de las bases en el genoma no es igual a 0,25, la frecuencia depende del tipo de organismo al que te refieras. Sin embargo, echemos un vistazo a algunos de ellos:

  • bacterias, la mayoría de las veces podemos ver un sesgo hacia algunas bases, esto podría ser un sesgo de GC, por ejemplo, si la bacteria vive en condiciones extremas, porque GC puede formar tres enlaces de hidrógeno en comparación con AT, que solo puede formar dos enlaces de hidrógeno. Por lo tanto, su genoma es más resistente a temperaturas extremas, menos posibilidades de desnaturalización debido a los enlaces más fuertes. En las bacterias también hay algunas polimerasas que tienen un sesgo hacia las bases, no discutiré esto en profundidad para ser breve, pero de estos dos puntos ya podemos concluir que el genoma no es aleatorio.

  • Homo Sapien, por ejemplo, necesitamos la isla CpG cerca de nuestra región promotora para regular la transcripción. Además, tenemos un porcentaje de GC más alto en las regiones de codificación de genes para reducir la posibilidad de mutación, porque no queremos mutar genes que son necesarios para la supervivencia. También hay algunas secuencias que son muy específicas, por ejemplo, la caja TATA y la señal Poly-A, si nuestro genoma fuera aleatorio, por lo que todas las bases tendrían una frecuencia de 0.25, esta secuencia específica podría ocurrir en el lugar donde no los queremos o no ocurrirían en los lugares donde los queremos. Necesitamos un promotor (con caja TATA) para la unión de la ARN polimerasa, si nuestro genoma fuera aleatorio, tenemos una gran posibilidad de que tengamos genes sin una caja TATA, por lo que no se producirá la transcripción de estos genes.

Hay muchas más propiedades del genoma que podríamos discutir, pero creo que esto le dará suficiente información sobre por qué las bases en el genoma no tienen una frecuencia igual de 0.25.

ACTUALIZAR:

además de su segunda pregunta: creo que la posibilidad de encontrar un genoma que tenga una distribución igualmente similar es muy pequeña. porque casi todos los organismos han experimentado una evolución, y cuando tenemos evolución hay selección natural y la selección natural se basa en mutaciones. Entonces (casi) todos los genomas tienen mutación udergo, sin embargo, esto a veces puede favorecer una distribución equitativa, por ejemplo, si nuestro genoma es AGAA y una A muta a una G, tendremos una proporción igualmente similar. Entonces, para resumir: tal vez pueda echar un vistazo a NCBI y buscar un gc 50%, lo que significa 50% AT, es decir, 25% de cada base. Si encuentra un genoma que tiene exactamente el 50% de gc, ha encontrado su respuesta.

Hay dos factores impulsores principales a considerar aquí:

Primero, G/C y A/T representan pares de bases complementarias, ya que G siempre está emparejado con C (y viceversa), mientras que A siempre está emparejado con T (y viceversa). Por tanto, la frecuencia de G es siempre igual a C, y la frecuencia de A es siempre igual a T.

En segundo lugar, G está emparejado con C a través de 3 enlaces de hidrógeno, mientras que A está emparejado con T a través de 2 enlaces de hidrógeno. Por lo tanto, los pares de bases G/C son termodinámicamente más estables que los pares de bases A/T y requieren temperaturas más altas (más energía) para separarse durante la replicación y también la transcripción. Por esa razón, los organismos que tienen una temperatura corporal más alta tienden a tener una mayor proporción de pares de bases G/C que aquellos que tienen una temperatura corporal más baja. Por ejemplo, el contenido de G/C es mayor en bacterias termófilas que en mamíferos, y mayor en mamíferos que en plantas. Este ajuste fino del contenido de G/C permite el equilibrio óptimo entre la estabilidad y la energía adicional necesaria para separar las hebras cuando sea necesario para la replicación y la transcripción.