¿Qué hace que las secuencias de ADN sean más diferentes/reconocibles desde una perspectiva biológica? [duplicar]

Podemos cuantificar fácilmente la diferencia de cantidad entre dos cadenas/secuencias de caracteres diferentes. Por ejemplo, si tomamos las palabras trebuchet y trebucket , podemos decir que tienen una distancia de Levenshtein de 1 (solo el valor de la edición de un carácter de diferencia).

Desde el punto de vista lingüístico, esa distancia es muy notoria, mientras que la diferencia entre piropo y complemento lo es mucho menos. Aunque ambos pares son solo una edición aparte (respectivamente), no todas las diferencias son igualmente distinguibles.

¿Cuál es el equivalente biológico de esto cuando se trata de proteínas de unión al ADN y ARN ? ¿Cómo identifico qué secuencias de ADN son más reconociblemente distintas entre sí? Por ejemplo, si tomamos una proteína de unión al ADN que reconoce la secuencia TGCCTCGAA, ¿es más probable que reconozca erróneamente A GCCT G GAA que TGCC AG GAA (o viceversa) como su secuencia objetivo?

Eso va a variar de una proteína de unión a ácido nucleico a otra. Recuerde, el ADN y el ARN no son simplemente secuencias de letras, sino que puede haber una estructura secundaria, así como interacciones químicas más básicas entre bases adyacentes o más distantes; vea las horquillas de ARN como ejemplo. Todo esto le da una "forma" a la porción reconocida de ácido nucleico, que puede informar la capacidad de unión tanto o potencialmente incluso más que la secuencia primaria sola.
@MattDMo Eso ciertamente no es sorprendente, pero me parece que debería haber algún parámetro para esa variación. Por ejemplo, quizás el cambio de una sola base en una secuencia de una purina a pirimidinas sea más distinguible que a la otra purina.

Respuestas (2)

Esta no es una pregunta con una respuesta muy bien aceptada todavía, y surge bastante, por ejemplo, en estudios de variación de población en motivos de factores de transcripción.

Por lo general, aproximamos las preferencias de secuencia de una proteína de unión a ADN con una matriz de peso de posición . Una matriz de peso le dará una puntuación para dos secuencias, por lo que la forma más sencilla de cuantificar las fuerzas de unión relativas de dos secuencias es comparar estas puntuaciones. También podría, digamos, comparar las posibilidades relativas de obtener los puntajes bajo alguna distribución de puntajes de fondo, que podría decirse que sería más comparable entre diferentes factores.

Sin embargo, la puntuación PWM (y otros medios para describir la especificidad de la secuencia) son solo una aproximación a lo que realmente le interesa, que es la energía de enlace asociada con la interacción. Si tiene evidencia experimental detallada sobre cómo se une la proteína, puede usar eso, y hay algunos documentos que también construyen modelos para aproximarlo a partir de puntajes PWM. Sin embargo, la realidad es que solo puede aproximarse aproximadamente a lo que sucede en la célula, debido al hacinamiento molecular y a los muchos otros factores que estarán presentes en la fibra de cromatina, por lo que la diferencia en las puntuaciones de PWM es a menudo lo que se usa.

Predecir el impacto de un cambio dado en una secuencia de ADN no codificante es un problema difícil. A veces obtendrá una aproximación decente, pero al final está tratando de hacer bioquímica desde los primeros principios, y aún no hemos llegado allí.

El ADN es una sustancia química y, por lo tanto, sus interacciones se rigen por su forma. No hay manera de mirar una secuencia de ADN y conocer todas las ramificaciones que tendrá cambiar una letra en su forma. Podría decirle que es muy probable que cambiar las dos primeras o las dos últimas letras de un intrón destruya un sitio de empalme, pero no puede hacer predicciones duras y rápidas sobre la unión del ADN en muchas otras situaciones.