Estoy usando un conjunto de datos compuesto por muestras y características (genes). Cada punto de datos es un número real.
Quiero entender cómo preprocesar los datos antes del análisis, en particular: ¿los puntos de datos siguen una distribución normal o logarítmica normal?
Pensé en usar qqplots y buscar diferentes pruebas para evaluar la forma de la distribución, pero tengo una duda:
¿Tengo que evaluar la forma de:
?
Por experiencia personal, casi todos los datos de conteo, ya sea de microarrays o lecturas de RNAseq de algún tipo, requieren una transformación de registro de los conteos. Por lo general, se agrega una pequeña fracción a todos los valores antes de hacerlo para la protección cero. Log2 (cuenta + 0.5) o algo así. Esto es independiente de los tratamientos. Si registra la transformación de una muestra, hará lo mismo para todas las muestras. Para examinar la normalidad, una forma sencilla es observar el histograma de conteos (por todas las muestras o por cada muestra) antes y después de la transformación. Aproximadamente en forma de campana -> continuar.
Imágenes a continuación de mis datos. Aunque los datos son de RNAseq, los datos de micromatrices deberían ser similares.
Código R aquí:
hist(t$counts,breaks=100,main="Histogram of Raw Counts from RNAseq")
hist(log(t$counts + 0.5,2),breaks=100,main="Histogram of Log2
transformed Counts from RNAseq")
C_Z_
gc5
WYSIWYG