¿Por qué solo SNV heterogéneos para la validación utilizando matrices de genotipado?

Estoy tratando de validar las variantes que encontré utilizando la secuenciación del genoma completo. La práctica estándar, que he visto en las dos publicaciones a continuación, era verificar la cantidad de SNP heterocigotos llamados por la matriz SNP.

1) Comparación de rendimiento de plataformas de secuenciación de genoma completo

Para evaluar aún más la precisión de la llamada variante,... De las 260 112 llamadas heterocigotas detectadas con la matriz Omni, el 99,5 % estaba presente en todo el conjunto de datos de SNV, el 99,34 % eran llamadas concordantes y solo el 0,16 % eran SNV específicas de la plataforma. Esto demuestra que ambas plataformas son sensibles a los SNV conocidos y que una sola plataforma detecta pocos polimorfismos de un solo nucleótido (SNP) conocidos.

2) El filtrado optimizado reduce la tasa de error en la detección de variantes genómicas mediante secuenciación de lectura corta

Para confirmar que los SNV compartidos son de hecho variantes verdaderas, utilizamos matrices de polimorfismo de un solo nucleótido (SNP) de Illumina y seleccionamos todos los SNP heterocigotos en la matriz de SNP.

Mi pregunta es: ¿por qué solo se eligen SNP heterocigotos para la validación cuando se utilizan matrices Illumina Omni?

Respuestas (2)

El propósito de la validación es encontrar SNP genuinos y no aquellos causados ​​por errores de secuenciación o amplificación. Es extremadamente improbable que tenga un SNP homocigoto falso como resultado de un error. Solo piensa en ello. ¿El mismo error, en la misma base, ocurre más del 80 % de las veces? No va a suceder a menos que tenga una cobertura baja, y estos SNP deben descartarse de todos modos. Es posible que tenga algunos casos en los que un SNP heterocigoto genuino se denomina SNP homocigoto. Pero eso no es mucho problema. Todavía es un SNP genuino. Solo sería un problema si solo estuviera interesado en los SNP homocigotos, en cuyo caso solo necesitará validar todo bioquímicamente, lo que deberá hacer de todos modos.

Creo que la posibilidad de que una plataforma de secuenciación llame a algo A/A cuando el microarray lo llama B/B es prácticamente nula. Simplemente no sucede.