Cómo evaluar si las mediciones biológicas siguen una distribución normal o logarítmica normal

Estoy usando un conjunto de datos compuesto por metro muestras y norte características (genes). Cada punto de datos es un número real.

Quiero entender cómo preprocesar los datos antes del análisis, en particular: ¿los puntos de datos siguen una distribución normal o logarítmica normal?

Pensé en usar qqplots y buscar diferentes pruebas para evaluar la forma de la distribución, pero tengo una duda:

¿Tengo que evaluar la forma de:

  • distribución de cada muestra
  • distribución de cada característica (gen)
  • todo el conjunto de datos ( metro muestras x norte características (genes))

?

Esto podría ser más adecuado para Cross Validated
@C_Z_ tiene razón, pero pensé que podría ser una tarea bien conocida para los bioinformáticos, por ejemplo, al usar microarrays. Sin embargo, si no, ¿cómo puedo transferirlo a CV? Gracias

Respuestas (2)

Por experiencia personal, casi todos los datos de conteo, ya sea de microarrays o lecturas de RNAseq de algún tipo, requieren una transformación de registro de los conteos. Por lo general, se agrega una pequeña fracción a todos los valores antes de hacerlo para la protección cero. Log2 (cuenta + 0.5) o algo así. Esto es independiente de los tratamientos. Si registra la transformación de una muestra, hará lo mismo para todas las muestras. Para examinar la normalidad, una forma sencilla es observar el histograma de conteos (por todas las muestras o por cada muestra) antes y después de la transformación. Aproximadamente en forma de campana -> continuar.

Imágenes a continuación de mis datos. Aunque los datos son de RNAseq, los datos de micromatrices deberían ser similares.

Código R aquí:

hist(t$counts,breaks=100,main="Histogram of Raw Counts from RNAseq")
hist(log(t$counts + 0.5,2),breaks=100,main="Histogram of Log2
transformed Counts from RNAseq")

ingrese la descripción de la imagen aquí

Hay formas de verificar estadísticamente la normalidad, y encuentro que examinar visualmente los datos como mencioné anteriormente es un buen primer paso.
  • El preprocesamiento siempre debe depender de la biología que intente responder o descubrir (p. ej., podría haber una razón experimental para creer que algunos genes se comportan de manera diferente en muestras individuales, y que diferentes muestras posiblemente podrían tener diferentes distribuciones).
  • la transformación de registros de sus datos por sí sola no suele ser un problema y facilita enormemente la exploración simultánea de diferentes magnitudes (aunque agregar un valor pequeño antes del registro puede hacer que su análisis sea engañoso, si tiene la intención de estudiar cuantitativamente la varianza entre muestras)
  • Para probar la normalidad, es posible que desee aplicar la prueba de Lilliefors en datos sin procesar y datos transformados de registro
  • Si está utilizando una lectura de expresión génica, no debe anticipar una distribución unimodal, por ejemplo: los metazoos tienen dos clases diferentes de genes, que en general conducen a una distribución bimodal (Hebenstreit et al. 2011) (si puede ajustar cualquier distribución unimodal, como lognormal, debe sospechar mucho y verificar la calidad de los datos experimentales).