¿Por qué realizar la imputación?

Los conjuntos de datos genéticos contienen mediciones de millones de polimorfismos de un solo nucleótido (SNP). Algunos porcentajes (generalmente pequeños) de estos valores son de confianza baja y se etiquetan como valores faltantes. Es común imputar estos valores faltantes utilizando relaciones estadísticas dentro de las muestras de alta confianza, así como relaciones extraídas de conjuntos de datos públicos. Esto tiene sentido, para obtener una estimación de cuál es probablemente en realidad ese pequeño porcentaje de datos faltantes.

A veces, se realizan análisis que imputan hasta un número mucho mayor de SNP; por ejemplo, una plataforma de genotipado puede medir 2,5 millones de SNP, pero la imputación se realiza para obtener una muestra mayor de 6 millones de SNP. Mi pregunta es, ¿qué valor tienen los SNP adicionales que ni siquiera se midieron desde el punto de vista del análisis? Al realizar la selección de características o el análisis predictivo, parecería que los SNP imputados en realidad solo codifican las relaciones estadísticas que están presentes en el conjunto de datos para empezar. ¿Qué significa encontrar un SNP altamente asociado o predictivo en el conjunto imputado?

Respuestas (1)

En GWAS estamos interesados ​​en entender qué SNP tiene una influencia causal en un fenotipo específico. Actualmente se realizan estudios a gran escala mediante matrices de genotipado. Para cada SNP que colocamos en la matriz, medimos los alelos presentes en el paciente.

El costo del genotipado obviamente depende de cuántos SNP nos gustaría medir. Entonces, el problema al diseñar una matriz de genotipado se reduce a: ¿Qué SNP ponemos en dicha matriz para obtener la mayor cantidad de información?

Para responder a esa pregunta, es importante darse cuenta de que los alelos SNP no son independientes. Los SNP que se encuentran en el mismo haplobloque están altamente correlacionados. Por lo tanto, la medición de uno de estos SNP suele ser suficiente para predecir los alelos de otros SNP que se encuentran en el llamado desequilibrio de ligamiento. Al diseñar una matriz de genotipado, probablemente no queramos medir todos esos SNP altamente correlacionados, porque obtenemos muy poca información. En cambio, es posible que desee medir solo algunos de ellos y luego imputar (predecir) los alelos de los correlacionados a partir de los datos del estudio de población.

Volvamos al análisis GWAS. A partir de los SNP en la matriz de genotipificación diseñada, ahora predecimos los SNP que están asociados con el fenotipo. Digamos que después de nuestro análisis estadístico encontramos un SNP asociado. Pero por el diseño de nuestra matriz sabemos que puede haber SNP altamente correlacionados que no medimos. Todos ellos también estarán asociados estadísticamente. Si no imputamos, podemos llegar a la conclusión equivocada de que ya encontramos el verdadero SNP causal. De hecho, puede haber muchos y encontrar el correcto suele ser muy difícil.