¿Cómo se encuentran los SNP correspondientes en el par de cromosomas en un archivo FASTA?

Se podría decir que soy un bioinformático aficionado o que intento convertirme en uno. Tengo un archivo BAM, del cual he logrado, usando UGENE , extraer datos de consenso en formato FASTA. Ahora veo una sola serie de nucleótidos y sus complementos para cada cromosoma. Lo que no veo son dos secuencias correspondientes. Los datos de SNP (p. ej., SNPedia ) citan (si lo entiendo correctamente) el SNP en el mismo sitio en cada cromosoma del par. No sé cómo determinar mi variación, ya que solo veo un nucleótido en un sitio dado, no el par.

Bastante seguro de que me estoy perdiendo algo fundamental aquí. ¡Gracias por cualquier ayuda para navegar en esta jungla!

"Dos secuencias correspondientes": ¿correspondientes a qué? ¿Qué datos SNP? ¿Qué SNP debería estar en ambos cromosomas? El enlace que proporcionó parece ser para un SNP que puede ser hetero u homocigoto. ¿Por qué asume que es homocigoto en sus datos? ¿Cuáles son tus datos? Edite su pregunta y aclare , es muy difícil entender lo que está preguntando en este momento.
Disculpen si no me exprese bien... Soy un poco nuevo en todo esto. En efecto, estoy hablando de lo que debería esperar ver en el caso de un SNP heterocigoto. La pregunta es simplemente esta: si el genoma particular que estoy examinando tiene un SNP heterocigoto en algún sitio, digamos (C; T), entonces, ¿cómo/dónde esperaría ver esto en mis datos? Un consenso refleja la lectura más frecuente en ese sitio, pero, en este caso, esperaría que alrededor del 50 % de las lecturas fueran C y el 50 % T... por lo que el consenso no es útil. ¿Me equivoco?

Respuestas (2)

Si está buscando consultas simples y únicas, podría ser mejor cargar el archivo BAM y un genoma de referencia relevante en un navegador como IGV y simplemente navegar a esa posición específica.

Para algunos datos que tenía, un SNP heterocigoto se vería como en la imagen a continuación, ha habido un SNP de A a G y un SNP de C a T:

Para listas más largas de consultas, echaría un vistazo a BEDtools: https://bedtools.readthedocs.org/en/latest/content/bedtools-suite.html

Si esto no te ayuda, te recomiendo que hagas tu pregunta en https://www.biostars.org/ Ahí encontrarás ayuda de verdaderos bioinformáticos.

ingrese la descripción de la imagen aquí

Correcto, he estado mirando el archivo BAM, pero aún no he encontrado ninguna instancia de un sitio donde vea 50/50 lecturas de dos nucleótidos (por ejemplo, 50% C y 50% T). ¿Es esto lo que debería esperar encontrar en el caso de un genotipo SNP heterocigoto? Si es así, ¿debería simplemente ignorar el consenso y simplemente mirar el archivo BAM? Solo me gustaría validar que estoy en el camino correcto aquí...
Ajusté la respuesta para incluir una imagen. Ojalá todo esté más claro ahora.

No necesariamente esperaría que las regiones de heterocigosidad fueran evidentes a partir de un ayuno de consenso. Me gustaría saber si conoce algunos sitios potenciales o ejecutar su .bam a través de algo que llamará SNP.