Conjuntos de datos de secuencias de nucleótidos alineadas [cerrado]

¿Dónde puedo encontrar algunos conjuntos de datos de secuencias de nucleótidos alineadas? ¿Y qué debo suponer sobre la precisión de las alineaciones allí?

(Me gustaría usar dichos conjuntos de datos para entrenar el modelo de alineación en el que estoy trabajando. En particular, para ayudarme a obtener una estimación de algunos parámetros, como la frecuencia de INDEL de un solo nt en algunas ubicaciones).

¿Qué quieres hacer con estas secuencias alineadas? Algoritmos de prueba? En realidad, su pregunta es un poco confusa.
Me gustaría usar un conjunto de datos de este tipo para el entrenamiento, es decir, para ayudarme a inferir algunos parámetros para la herramienta de alineación en la que estoy trabajando. Gracias por tu comentario; Editaré mi pregunta para aclarar.
¡Estoy de acuerdo con @Chris! ¿Quiere decir si se puede confiar en la alineación en sí en función del algoritmo utilizado o en las secuencias en sí? ¿Le preocupa que las secuencias semiconservadas se alineen de forma variable según el algoritmo utilizado? Para conocer los diferentes algoritmos de alineación, consulte esta publicación ( biology.stackexchange.com/questions/20075/… ). Podría estar totalmente equivocado, pero la alineación múltiple y las secuencias semiconservadas son principalmente un problema para AA, no para nucleótidos, ya que coinciden o no.
Gracias por tu comentario. La alineación de aminoácidos no funcionaría para mi propósito (creo), porque estoy tratando de inferir la probabilidad de un solo nt INDEL en una ubicación determinada.
Por lo tanto, se debe confiar en la alineación en el sentido de que los INDEL de nucleótidos predichos por la alineación son correctos.
Bueno... Los indeles son leídos por su secuenciador... Hay errores de máquina y errores de preparación de muestras. Tienes que configurar los controles en tu máquina y entrenar tu set. Sin embargo, no he entendido realmente tu pregunta.
Realmente no he entendido tu comentario, pero probablemente sea porque soy relativamente nuevo en este mundo. Lo que estoy tratando de hacer: un par de secuencias nt alineadas pueden tener regiones que se conservan, también pueden tener inserciones/eliminaciones. Esas inserciones/eliminaciones pueden ser de codones completos, pero también puede haber inserciones/eliminaciones de nucleótidos individuales (¿Tengo razón hasta ahora?). Mi propósito a partir de un conjunto de datos de secuencias nt alineadas es estudiar esas inserciones/eliminaciones (e inferir parámetros basados ​​en ellas para la herramienta de alineación en la que estoy trabajando).
@AnasElghafari. Le sugiero que use algún diagrama para aclarar su pregunta.
Bien, olvidémonos del asunto del "estándar de oro" y "absolutamente correcto". Edité la pregunta, así que ahora solo pido los conjuntos de datos de secuencias nt alineadas.
Hola chicos, edité mi pregunta en algo que, espero, sea más claro. ¿Puedes quitar la retención?
¿Qué quiere decir con secuencias de nucleótidos alineadas: alineación por pares o MSA?
por pares sería suficiente para mi propósito.
Hay algunas alineaciones de VIH seleccionadas manualmente en LANL . El VIH tiene una longitud bastante variable, por lo que encontrará muchas indeles en estas alineaciones.

Respuestas (1)

Puede encontrar la alineación multiz de 46 vías en el navegador del genoma de UCSC , está abajo en la parte de genómica comparativa y está etiquetada como "contras de 46 vías", que es una alineación del genoma de 46 especies de vertebrados. Puede usar datos en su navegador de genoma en el sitio u obtener información de descarga aquí .

Si está interesado en alineaciones por pares, no conozco ninguna base de datos de alineación por pares, pero de hecho no necesita una. Puede buscar secuencias de nucleótidos en la base de datos de nucleótidos del NCBI y alinearlas usando BLAST en su sitio web . BLAST es quizás la herramienta más común para alineaciones por pares y también para búsquedas de alineaciones en bases de datos, en las que se buscan coincidencias en una sola secuencia de consulta en una base de datos de secuencias. Si desea realizar una gran cantidad de alineaciones, puede descargar BLAST a su computadora para realizarlas más rápido.