GWAS: ¿Por qué es tan crucial la replicación en otra cohorte?

Casi todas las revisiones históricas de GWAS (Estudios de asociación de todo el genoma) coinciden en que, para que un hallazgo de GWAS sea válido, debe replicarse en una cohorte independiente. ¿Cuál es exactamente la razón detrás de esto? ¿Sigue siendo válido este criterio incluso cuando el objetivo es buscar genes para hacer estudios funcionales, en lugar de una perspectiva clínica de búsqueda de loci de susceptibilidad? Considerando la dificultad de replicar algunas caracterizaciones fenotípicas en un gran número de sujetos, para un biólogo todo esto parece irrelevante.

Considere el siguiente escenario: Supongamos que tengo 5000 individuos fenotipados con un presupuesto para genotiparlos a todos en todo el genoma. El fenotipado requiere una metodología de vanguardia con costos inmensos, y la cohorte fue fenotipada a través de otra subvención. ¿Cuál sería el punto de dividir mi cohorte en dos como grupos de descubrimiento y replicación, aparte de ahorrar dinero a cambio de poder estadístico? A esto, súmale los posteriores estudios funcionales sobre los loci asociados, ¿qué sentido tendría genotipificar unos SNPs en 500 personas más? Si uno puede encontrar esa cohorte adicional, ¿no sería una mejor opción combinar las cohortes disponibles en un metanálisis, en lugar de usarlas para la replicación?

Piénselo de esta manera, si el estudio no se puede replicar en una cohorte independiente, ¿qué significa eso para sus resultados en términos de aplicabilidad?
Gran pregunta. La respuesta es la corrección de sesgos técnicos no aleatorios. Gastaré en eso en una respuesta tan pronto como encuentre algo de tiempo. Se supone que no debe dividir una cohorte genotipada en dos, al hacerlo, puede corregir la estructura de la población (y no realmente como puede corregirla de todos modos usando un PCA simple basado en el genotipo) pero definitivamente no por sesgos técnicos. La población también puede ser una razón, pero no es la principal (los SNP específicos de la población son informativos).

Respuestas (2)

Como una elaboración de mi comentario.

Resumen: se requiere replicación en los estudios de GWAS para tener en cuenta los sesgos técnicos no aleatorios.

Un ejemplo de tal sesgo es, por ejemplo, un chip utilizado para genotipado que proporciona genotipos incorrectos consistentemente para un locus. En esta situación, agregar más sujetos no corregirá este efecto y, por lo tanto, la única solución es genotipar sujetos adicionales con otro método (p. ej., otro chip o protocolo experimental). Otra fuente de sesgo técnico no aleatorio está en el nivel de medición del fenotipo. Es posible que desee, si es posible, medir el fenotipo utilizando otras técnicas para asegurarse de que se corrija el sesgo.

No es necesario que una cohorte de replicación sea enorme y el tamaño real necesario dependerá en gran medida del tamaño del efecto del SNP observado en la cohorte de descubrimiento. Un cálculo de " poder de detección " ayudaría a predecir el tamaño de cohorte necesario. Para que un SNP sea significativo, debe pasar la corrección de Bonferroni, pero como puede realizar una prueba estadística solo en el sitio candidato, la corrección generalmente no será muy astringente (es decir, puede realizar pruebas de asociación en "solo" unas pocas docenas o cientos de SNP). ).

Históricamente, también se requería la replicación de GWAS para corregir la estructura de la población, pero como las herramientas evolucionaron sustancialmente (por ejemplo, el uso del análisis de componentes principales) y los tamaños de las cohortes ahora son sustancialmente más grandes en comparación con los primeros estudios de GWA, esto es menos preocupante. Lo que se requería era muestrear de forma independiente a otros sujetos de la misma población o de una población diferente.

Para su situación, lo que podría hacer es dividir su cohorte en un panel de descubrimiento y uno de replicación, genotipar su sujeto en el panel de replicación usando una técnica independiente, eventualmente hacer lo mismo con el fenotipado y replicar sus SNP candidatos. El panel de replicación necesario generalmente debe ser más pequeño que la cohorte de descubrimiento por las razones expuestas en el párrafo anterior.

Para su última pregunta sobre el metanálisis. Sí, este también podría ser un camino a seguir, pero tenga cuidado de que aún necesitará una cohorte de replicación para validar los SNP encontrados de esta manera, lo que resultará exactamente en el mismo problema que describió.

Espero esta ayuda!

Al igual que con todos los resultados científicos serios, los resultados de GWAS deben ser validados por otros. En este caso, creo que es extremadamente importante porque estos estudios vinculan mutaciones a enfermedades o, en general, genotipos dados a fenotipos, señalando así posibles causas. Por lo tanto, validar estos resultados con el uso de "muestras" independientes es crucial. Pero como dije, todos los hallazgos científicos serios (notables) deben ser reproducibles.

Editar: el punto es la aleatoriedad y el submuestreo. Una cohorte tan grande no debe provenir de una pequeña subpoblación sino de muchas regiones del mundo, y al dividir aleatoriamente a sus individuos en dos o incluso más grupos, se asegura de que otros efectos de fondo, como las frecuencias de variación de alelos genéticos locales, diferencias de estilo de vida, etc. ser por término medio. Imagine un escenario en el que tiene 90 individuos en 60 de ellos puede vincular el genotipo al fenotipo. eso es 2/3 de los individuos. Pero si toma 3 submuestras de 30 individuos y obtiene 7/23, 17/13 y 6/24 (no vinculado/vinculado), eso es 76,6 % (23/30), 43,3 % (13/30) y 80 % (24/30). A partir de estos, puede obtener el mismo promedio de 66,6% pero con desviación estándar (15,5) y el intervalo de confianza no es solo un número.

Permítanme elaborar la pregunta: supongamos que tengo 5000 individuos fenotipados con un presupuesto para genotiparlos a todos en todo el genoma. ¿Cuál sería el punto de dividir mi cohorte en dos como grupos de descubrimiento y replicación, aparte de ahorrar dinero a cambio de poder estadístico? A esto, súmale los posteriores estudios funcionales sobre los loci asociados, ¿qué sentido tendría genotipificar unos SNPs en 500 personas más?
Además, en el escenario anterior, donde los chips SNP cuestan mucho menos en comparación con el fenotipado de individuos, ¿no sería una mejor opción combinar las cohortes disponibles en un metanálisis, en lugar de usarlas para la replicación?
En realidad, no se debe a la población y el muestreo, sino a sesgos técnicos. Como señaló con un tamaño de población tan grande (> 5000), no espera obtener tanta variación debido a la variación de la población local o los sesgos de muestreo. Además, el revisor no le pide que replique sus resultados en otra población, sino en otra cohorte (podría ser el mismo "tipo" de población). Último punto, no, no tiene que ejecutar un GWAS en personas que vienen de todo el mundo, puede ejecutar un GWAS en un pop muy específico si lo desea y replicar las asociaciones descubiertas en un panel de replicación desde el mismo pop.
Estoy de acuerdo, pero quería dar una respuesta de "visión general" sobre cómo hacer paralelos, en lugar de centrarme en el GWAS real (ya que es como cualquier otro experimento desde este punto de vista). Estoy totalmente de acuerdo con su último punto, pero nuevamente mi El objetivo era enfatizar los efectos positivos de dividir la muestra en subgrupos.