¿Cuál es la forma más adecuada de normalizar los datos de expresión génica?

Esta pregunta surge porque al leer un artículo sobre la normalización de datos de expresión génica, no está claro si el método para normalizar los datos es solo para datos de RNA-Seq o podría aplicarse también para microarrays.

Para los datos de RNA-Seq, existen métodos de normalización que se ajustan al efecto del contenido de GC u otros efectos a nivel de genes. ¿Tiene sentido considerar estos efectos en la normalización de datos de expresión génica de micromatrices?

Estos métodos corrigen los sesgos durante el experimento de secuenciación. Dado que la micromatriz es una técnica diferente, los sesgos que sufre serían diferentes. También existen técnicas de corrección de sesgo para microarrays, pero son diferentes de las que se usan para RNAseq. No se pueden usar indistintamente.

Respuestas (2)

La normalización de los datos de expresión es un gran tema con nuevos métodos que se publican regularmente. Cuando te acercas a algo como esto, generalmente deseas observar a las personas que han hecho cosas similares a las que tú has hecho, y luego, una vez que comprendes por qué hicieron lo que hicieron, puedes preguntar qué debes hacer para responder a tus preguntas. Siempre tenga en mente su pregunta biológica. Por ejemplo, si está midiendo QTL, deberá tener mucho más cuidado que si solo está buscando genes afectados por una mutación knockout.

En general, desea utilizar métodos bastante diferentes para los datos de RNAseq y Microarray. Los dos tipos de datos siguen distribuciones completamente diferentes (RNAseq le brinda datos de conteo, los datos de micromatrices le brindan señales continuas) y tienen diferentes tipos de ruido técnico que los afectan (el contenido de GC afectará a ambos, pero de una manera diferente). Algunos métodos se pueden usar en ambos, pero generalmente implican forzar los datos a una forma diferente (por ejemplo, asignar recuentos a una distribución normal). El paquete limma para R puede manejar ambos, usando diferentes distribuciones, y es un buen comienzo. Existen métodos más nuevos y supuestamente mejores para RNAseq, que no he usado personalmente.

En términos generales, para los datos de RNA-seq, no desea corregir el contenido de GC u otros efectos a nivel de genes (por ejemplo, la longitud) porque compara valores de expresión entre condiciones DENTRO de un gen. Por esta razón, se recomienda utilizar conteos sin procesar y no valores normalizados como FPKM. Consulte la Sección 2.7 del manual del usuario de edgeR .

Este punto de referencia reciente que compara los métodos de cuantificación de RNA-seq puede valer la pena.