¿De qué longitud son las cadenas más cortas de ADN que no están presentes en el genoma de ninguna persona conocida, y cuáles son?
¿Y hay una base de datos en línea por la cual podría encontrar esto?
El genoma humano contiene menos de 4 16 pares de bases, por lo que, incluso después de incluir un factor de 2 para las dos cadenas y otro para permitir alguna variación genética, ciertamente debe existir alguna cadena de 17 bases que no se encuentra en ninguna de las cadenas del genoma. .
Ahora, 4 17 bits son dos gigabytes, lo que cabe fácilmente en la memoria de una computadora de escritorio típica en estos días, por lo que un algoritmo simple y eficiente para encontrar esa cadena sería configurar una matriz de 4 17 bits, inicializarlos todos para cero, y luego simplemente iterar sobre todo el genoma (incluidas todas las variaciones conocidas), tomando cada subsecuencia de 17 bases (y su complemento), asignándolas a enteros de base 4 y colocando los bits en la matriz en las posiciones dadas por esos enteros a uno.
Una vez que haya terminado, cualquier bit cero restante corresponderá a cadenas que no se encuentran en el genoma. Más concretamente, el bloque consecutivo más largo de cero bits le dará la cadena base más corta que no está presente en el genoma.
Esto en realidad no sería demasiado difícil de encontrar. Un algoritmo común en el ensamblaje del genoma primero toma tramos de ADN y encuentra todas las subcadenas de longitud k que están presentes. (Estos se conocen como k-mers y el algoritmo luego construye el ensamblaje en función de cómo se superponen los k-mers). Entonces, dado un genoma (s), no es tan difícil encontrar todos los k-mers de cierta longitud.
Como señala la respuesta de Ilmari, definitivamente hay k-mers de 17 bases que no existen en una cadena de ADN del tamaño del genoma humano. Dada la cantidad de contenido repetitivo presente en los genomas reales, es casi seguro que la cadena más corta real tendrá menos de 17 pares de bases.
Las secuencias que no aparecen en un genoma se denominan "nullómeros" .
Ese artículo afirma que no hay secuencias de 10 pb que no aparezcan en el genoma humano y 80 secuencias de 11 pb que no aparezcan , citando este documento .
nico
Konrad Rodolfo
nico
Rik Smith-Unna
Konrad Rodolfo
inf3rno