Cuerdas más cortas no presentes en el genoma humano

¿De qué longitud son las cadenas más cortas de ADN que no están presentes en el genoma de ninguna persona conocida, y cuáles son?

¿Y hay una base de datos en línea por la cual podría encontrar esto?

Sólo por mi curiosidad personal... ¿por qué? De todos modos, el hecho de que no se haya secuenciado el genoma de todo el mundo puede suponer un problema
Estaba a punto de escribir una descripción de cómo averiguarlo por sí mismo, pero después de reflexionar más detenidamente, esto suena difícil . Básicamente, tendría que crear una solución de programación dinámica, pero la solución seguirá teniendo un tiempo de ejecución exponencial con un gran exponente en la longitud de la cadena de resultados (que no sabemos).
Me encantaría ver un algoritmo real para esto. Las respuestas hasta ahora son tentadoras pero siguen siendo bastante teóricas.
@KonradRudolph, ¿puede convertir eso en una respuesta y ampliarla? Suena interesante, pero me encantaría saber por qué sería tan difícil y cómo sería esa solución.
@Richard En realidad, el algoritmo de Ilmari funcionaría en tiempo lineal. Mi enfoque fue abordar el problema al revés porque asumí la generalidad, mientras que Ilmari (correctamente) asume que podemos dar un límite superior en la longitud del infijo no presente, lo que permite el uso de tablas de búsqueda. Mi enfoque habría iterado sobre todo el espacio de búsqueda de todos los k-tupes posibles para k=2… (que es exponencial) y verificado si cada uno de ellos existe como un índice preconstruido del genoma.
Creo que puedes contar su posible longitud con estadísticas. Creo que encontrarlos es imposible, porque no se puede verificar el ADN de todas las personas vivas... Hay regiones muy variables en el ADN, por lo que, en teoría, todas las combinaciones van a ocurrir allí... Creo que la región más corta, si existe tal una cosa: estará relacionado con algunas cosas funcionales sobre la regulación del ADN (no es mi tema favorito), y será letal si está presente. Por ejemplo, romperá los cromosomas o hará otras cosas complicadas...

Respuestas (3)

El genoma humano contiene menos de 4 16 pares de bases, por lo que, incluso después de incluir un factor de 2 para las dos cadenas y otro para permitir alguna variación genética, ciertamente debe existir alguna cadena de 17 bases que no se encuentra en ninguna de las cadenas del genoma. .

Ahora, 4 17 bits son dos gigabytes, lo que cabe fácilmente en la memoria de una computadora de escritorio típica en estos días, por lo que un algoritmo simple y eficiente para encontrar esa cadena sería configurar una matriz de 4 17 bits, inicializarlos todos para cero, y luego simplemente iterar sobre todo el genoma (incluidas todas las variaciones conocidas), tomando cada subsecuencia de 17 bases (y su complemento), asignándolas a enteros de base 4 y colocando los bits en la matriz en las posiciones dadas por esos enteros a uno.

Una vez que haya terminado, cualquier bit cero restante corresponderá a cadenas que no se encuentran en el genoma. Más concretamente, el bloque consecutivo más largo de cero bits le dará la cadena base más corta que no está presente en el genoma.

simplemente iterar sobre todo el genoma (incluidas todas las variaciones conocidas) : simplemente no es realmente la palabra que habría usado, pero aún así...
@Ilmari: Lo que encuentras con tu método son esas 17 secuencias que no están en un genoma humano. Pero la pregunta era sobre el genoma de cualquier persona conocida .
@rwst: el método que describí puede procesar fácilmente múltiples genomas, o fragmentos de genomas, y encontrar aquellos k-mers que no están presentes en ninguno de ellos. Estoy seguro de que hay otras complicaciones con las que uno tendría que lidiar para aplicarlo a los datos reales del genoma, pero esta no debería ser una de las principales.
@nico Hay estructuras de datos especiales para esto que lo hacen tan simple como iterar sobre una sola cadena (excepto que para cada posición no tiene un solo 17-mer comenzando allí, sino una lista de 17-mers).
esta es una buena respuesta: ciertamente hay algunos 17mers que no aparecen en el genoma humano. Ciertamente, no es posible decir que un 17mer dado no aparece en ningún genoma humano, al menos hasta que hayamos secuenciado todas las células en los cuerpos de todos los seres humanos (las mutaciones no germinales ocurren con demasiada frecuencia). Eso suena difícil.
Esta es la razón por la cual los cebadores de PCR de ADN tienen una longitud de aproximadamente 20 bases, lo que ayuda a garantizar la unicidad. También pone el punto de fusión a una temperatura más razonable.

Esto en realidad no sería demasiado difícil de encontrar. Un algoritmo común en el ensamblaje del genoma primero toma tramos de ADN y encuentra todas las subcadenas de longitud k que están presentes. (Estos se conocen como k-mers y el algoritmo luego construye el ensamblaje en función de cómo se superponen los k-mers). Entonces, dado un genoma (s), no es tan difícil encontrar todos los k-mers de cierta longitud.

Como señala la respuesta de Ilmari, definitivamente hay k-mers de 17 bases que no existen en una cadena de ADN del tamaño del genoma humano. Dada la cantidad de contenido repetitivo presente en los genomas reales, es casi seguro que la cadena más corta real tendrá menos de 17 pares de bases.

Incluso si da esa cadena, nunca estará 100% seguro de haber cubierto todos los genomas humanos, como se le pidió.

Las secuencias que no aparecen en un genoma se denominan "nullómeros" .

Ese artículo afirma que no hay secuencias de 10 pb que no aparezcan en el genoma humano y 80 secuencias de 11 pb que no aparezcan , citando este documento .

Esto es solo sobre la región de codificación de proteínas, pero buen punto, hay enfermedades causadas por secuencias de ADN específicas. Por ejemplo , el síndrome de X frágil .