Actualmente estoy trabajando en la alineación de secuencias y necesito calcular la similitud entre pares de 'palabras' de ADN de una longitud particular.
Para los aminoácidos, puedo usar las matrices de sustitución en Biopython (Bio.SubsMat.MatrixInfo).
Sin embargo, no he encontrado nada similar para el ADN, así que leí y descubrí que la mayoría de los sistemas utilizan un sistema de puntuación de coincidencia/desajuste en el que se puntúa cada coincidencia y desajuste de nucleótidos y luego se suman las puntuaciones. Esto funciona bien siempre que solo trate con A, G, C y T, pero me encuentro con problemas cuando obtengo una secuencia que contiene N o M y similares (lo que significa que se desconoce el nucleótido).
¿Existe una forma estándar de manejar la situación con incógnitas? Es decir, ¿cómo califico A frente a N o M frente a N?
Gracias por adelantado.
BLASTN no utiliza una matriz de sustitución. Hay puntajes para coincidencia, discrepancia y brechas que también puede definir.
No hay ninguna función disponible a partir de ahora que permita puntuar partidos contra desconocidos. Se consideran discrepancias (como se muestra a continuación). Si estos desconocidos están en medio de un HSP, entonces probablemente pueda volver a puntuar el HSP de acuerdo con su esquema utilizando un script de Python. Si el N
estiramiento está interrumpiendo el HSP, puede intentar relajar las penalizaciones por desajuste y reducir el tamaño de la palabra (básicamente, reducir la rigurosidad). No puedo pensar en ninguna otra solución.
Query 1 CAGCGTCCANNTCCCGAGGTGCCGGGATTGCAGACGGAGTCTGGTTCACTCAGTGCTCAA 60
||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 8 CAGCGTCCACCTCCCGAGGTGCCGGGATTGCAGACGGAGTCTGGTTCACTCAGTGCTCAA 67
Query 61 TGGTGCCCAGGCTGGAGTGCAGTGGCGTGATCTCGGCTCGCTACANNCTCCACCTCCCAG 120
||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||
Sbjct 68 TGGTGCCCAGGCTGGAGTGCAGTGGCGTGATCTCGGCTCGCTACAACCTCCACCTCCCAG 127
Query 121 CCGCCTGCCCTGGCCTCCCAAAGTGCCGAGATTGCAGCCTCTGCCCAGCCGCCACCCC 178
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct 128 CCGCCTGCCCTGGCCTCCCAAAGTGCCGAGATTGCAGCCTCTGCCCAGCCGCCACCCC 18
chris cámaras
WYSIWYG
chris cámaras