Cómo evaluar si las mediciones biológicas siguen una distribución normal o logarítmica normal

Question

Cómo evaluar si las mediciones biológicas siguen una distribución normal o logarítmica normal

Biología
Estadísticas
bioestadística
bioinformática

gc5

Estoy usando un conjunto de datos compuesto por $m$ muestras y $n$ características (genes). Cada punto de datos es un número real.

Quiero entender cómo preprocesar los datos antes del análisis, en particular: ¿los puntos de datos siguen una distribución normal o logarítmica normal?

Pensé en usar qqplots y buscar diferentes pruebas para evaluar la forma de la distribución, pero tengo una duda:

¿Tengo que evaluar la forma de:

distribución de cada muestra
distribución de cada característica (gen)
todo el conjunto de datos ( $m$ muestras x $n$ características (genes))

?

C_Z_

Esto podría ser más adecuado para Cross Validated

gc5

@C_Z_ tiene razón, pero pensé que podría ser una tarea bien conocida para los bioinformáticos, por ejemplo, al usar microarrays. Sin embargo, si no, ¿cómo puedo transferirlo a CV? Gracias

WYSIWYG

Eche un vistazo a biology.stackexchange.com/q/37167/3340

Respuestas (2)

Cómo evaluar si las mediciones biológicas siguen una distribución normal o logarítmica normal

@C_Z_ tiene razón, pero pensé que podría ser una tarea bien conocida para los bioinformáticos, por ejemplo, al usar microarrays. Sin embargo, si no, ¿cómo puedo transferirlo a CV? Gracias

aliasDrHouse · Answer 1

Por experiencia personal, casi todos los datos de conteo, ya sea de microarrays o lecturas de RNAseq de algún tipo, requieren una transformación de registro de los conteos. Por lo general, se agrega una pequeña fracción a todos los valores antes de hacerlo para la protección cero. Log2 (cuenta + 0.5) o algo así. Esto es independiente de los tratamientos. Si registra la transformación de una muestra, hará lo mismo para todas las muestras. Para examinar la normalidad, una forma sencilla es observar el histograma de conteos (por todas las muestras o por cada muestra) antes y después de la transformación. Aproximadamente en forma de campana -> continuar.

Imágenes a continuación de mis datos. Aunque los datos son de RNAseq, los datos de micromatrices deberían ser similares.

Código R aquí:

hist(t$counts,breaks=100,main="Histogram of Raw Counts from RNAseq")
hist(log(t$counts + 0.5,2),breaks=100,main="Histogram of Log2
transformed Counts from RNAseq")

Hay formas de verificar estadísticamente la normalidad, y encuentro que examinar visualmente los datos como mencioné anteriormente es un buen primer paso.

tsttst · Answer 2

El preprocesamiento siempre debe depender de la biología que intente responder o descubrir (p. ej., podría haber una razón experimental para creer que algunos genes se comportan de manera diferente en muestras individuales, y que diferentes muestras posiblemente podrían tener diferentes distribuciones).
la transformación de registros de sus datos por sí sola no suele ser un problema y facilita enormemente la exploración simultánea de diferentes magnitudes (aunque agregar un valor pequeño antes del registro puede hacer que su análisis sea engañoso, si tiene la intención de estudiar cuantitativamente la varianza entre muestras)
Para probar la normalidad, es posible que desee aplicar la prueba de Lilliefors en datos sin procesar y datos transformados de registro
Si está utilizando una lectura de expresión génica, no debe anticipar una distribución unimodal, por ejemplo: los metazoos tienen dos clases diferentes de genes, que en general conducen a una distribución bimodal (Hebenstreit et al. 2011) (si puede ajustar cualquier distribución unimodal, como lognormal, debe sospechar mucho y verificar la calidad de los datos experimentales).

Cómo evaluar si las mediciones biológicas siguen una distribución normal o logarítmica normal

gc5

C_Z_

gc5

WYSIWYG

Respuestas (2)

aliasDrHouse

aliasDrHouse

tsttst

Herramientas que toman una matriz de parentesco para la descorrelación filogenética

Lectura recomendada para ponerse rápidamente al día sobre las enfermedades infecciosas

Necesitar ayuda para inferir las pruebas de hipótesis estadísticas realizadas en un artículo antiguo

¿Gráfico de diversidad genética intraespecie a través de especies/phyla?

Número de copia BLAST local por acierto

¿Cómo debe elegir entre los diversos métodos de ordenación restringida?

Material sobre el análisis de datos de (micro)matrices

Identificación de sistemas en redes neuronales pequeñas

¿Cómo obtener el número promedio de diferencias por pares entre las poblaciones?

Análisis estadístico para mediciones de azúcar en sangre