¿Herramienta para la alineación de nucleótidos con todos los códigos de nucleótidos (por ejemplo, R, Y, W, S, etc.)?

Tengo una secuencia de vectores y me gustaría encontrar la siguiente secuencia de nucleótidos en ella.

AASYWSRA

Esta secuencia de consulta utiliza varios símbolos degenerados, definidos como:

  • S = C o G ( fuerte )
  • Y = C o T (p Y rimidina)
  • W = A o T ( débil )
  • R = A o G (pu R ine)

(Consulte esta página para obtener una descripción completa de los códigos de nucleótidos de la IUPAC).

¿Existe alguna herramienta para alinear esta secuencia con el vector y encontrar todos los sitios posibles?

EDITAR: Encontré este sitio web pero no pude encontrar ninguno de los recursos útiles. Tal vez uno de estos funcione, pero encontré que la mayoría de ellos son demasiado complicados. Si sabes cuál funcionará y me explicas cómo usarlo, te lo agradeceré.

¿Podría haber jurado que NCBI BLAST puede hacer eso? ¿Lo has probado?

Respuestas (3)

Si está buscando una coincidencia exacta, realmente no necesita un alineador complejo. Las expresiones regulares de Perl son bastante poderosas en las transformaciones de cadenas o la coincidencia condicional de subcadenas. Por ejemplo, para encontrar todas las coincidencias de AASYWSRAen una secuencia de nucleótidos $seq, puede hacer lo siguiente:

@matches = $seq =~ m/AA[CG][CT][AT][CG][AG]A/g;

Los []corchetes se conocen como clases de caracteres de Perl, que permiten diferentes caracteres en una posición.

Nunca he utilizado la función, pero sé que Vmatch le permite definir sus propios alfabetos y asignaciones de símbolos, lo que debería permitirle manejar los símbolos de nucleótidos ambiguos de la IUPAC. El alfabeto/mapa predeterminado puede incluso incluir estos símbolos.

Desafortunadamente, vmatch trata las letras en las asignaciones de símbolos como equivalentes (por ejemplo, S = C). No maneja que S pueda ser C o G. El mapeo de símbolos está pensado para manejar casos (por ejemplo, t = T) o para agrupar aminoácidos similares.

He usado MAST para buscar motivos particulares en una secuencia.

Desde la página de introducción de MAST , parece que tendrá que reformatear un poco su motivo, pero debería ser suficiente para sus propósitos:

Los motivos se representan como matrices de puntuación dependientes de la posición que describen la puntuación de cada letra posible en cada posición del patrón.

Aquí hay más información sobre el formato , que también indica que el alfabeto que utilice se interpretará correctamente.