¿Por qué y cómo se informan múltiples alelos durante la llamada de variante en vcf?

Esta podría ser una pregunta muy básica para muchos aquí. Con la comprensión básica de la herencia, aunque existe la posibilidad de múltiples genotipos debido a múltiples alelos, el genotipo resultante solo puede tener dos alelos (paterno y materno) de esa manera, después de la llamada variante, un alelo en una posición puede ser homocigoto o heterocigoto. Entonces puede haber un máximo de dos alelos, pero ¿por qué vemos múltiples alelos en una posición dada en VCF? Estoy tratando de entender la ciencia detrás de esto. Por favor ayuda ¡Gracias!

chr5    127640782   .   AG  A,AA    .   .   .   GT:AD:DP    1/2:0,28,409:437
¿Puede por favor aclarar lo que quiere decir con multiple alleles at a given position in VCF.? Tal vez podría mostrar un extracto de un archivo VCF para mostrarnos lo que quiere decir. ¿Le sorprende que en la población pueda haber más de 2 alelos en un sitio dado?

Respuestas (3)

En su ejemplo, la cuarta columna contiene el alelo de referencia en la posición dada. No se dice, que su muestra tiene esto. La quinta columna contiene todos los alelos alternativos encontrados en la posición dada.

Los alelos que están presentes en su muestra se dan en la última columna por 1/2. Esto significa que tiene un alelo con el primer valor en la quinta columna y un alelo con el segundo valor en la quinta columna. Verá, que su muestra tiene exactamente alelos, pero ninguno de ellos es la referencia. Esto estaría indicado por un 0.

Un vcf puede contener múltiples columnas que representan datos de alelos para múltiples muestras. Tampoco veo ninguna razón por la que no pueda representar los datos de una muestra tetraploide en un vcf. También se podría tener una mezcla de organismos en una muestra, como una población mixta de bacterias. Si pudiera hacer que la persona que llama SNP llame a un SNP trialélico, el formato vcf puede manejarlo.

La otra posibilidad que puedo imaginar es que el formato esté diseñado para acomodar la heterogeneidad entre las células individuales en una muestra y los inevitables errores de secuencia.

Si secuencia una muestra de un organismo que (en su mayoría) tiene dos alelos en un locus (por ejemplo, A y G), aún puede haber células individuales que tengan una C o T en ese locus, y también puede haber errores de secuencia que introduzcan un C o T en lecturas que en realidad eran A o G. El formato VCF aún podría representar las llamadas de baja probabilidad, además de las de mayor probabilidad.