La confusión de un matemático con respecto a las pruebas ttt paramétricas para datos de expresión génica

Soy un matemático que intenta probar algunas cosas sobre los datos de expresión génica y, por lo tanto, estoy hojeando varios artículos como Sotiriou et. Alabama. para entender lo que normalmente se hace con tales conjuntos de datos. Varias cosas me confunden; en particular, un párrafo en Sotiriou et. Alabama. lee:

"Los parámetros clínicos como el estado de ER [...] afectan el comportamiento de los cánceres de mama. Preguntamos si estas características clínicas/patológicas estaban asociadas con la expresión génica diferencial. Las pruebas t paramétricas identificaron 606 elementos de sonda de 7650 elementos representados en nuestra matriz que podría segregar tumores de mama ER+ y ER- (P < 0,001)."

Como la segregación de ER+/- basada en expresiones génicas es una de varias cosas que me interesa intentar lograr a través de métodos novedosos, he estado tratando de entender qué significa exactamente el párrafo anterior. Para resumir el artículo, hay 99 pacientes con 7650 valores de expresión de sonda y un valor de ER+/- cada uno. El artículo se propone determinar cuál de esas 7650 sondas segrega con éxito el conjunto de datos en ER+ y ER-.

Revisé el párrafo anterior con un estadístico cercano, y él no pudo descifrar lo que se hizo, y ni siquiera había oído hablar de algo como una "prueba t paramétrica". Esto me lleva a sospechar que el término es específico de la biología, por lo que pregunto: ¿qué significa? Tampoco está claro para mí (y para él) qué significa el valor P en este contexto.

Espero que el alcance de esta pregunta no sea demasiado amplio. Por supuesto quiero evitar pedir "explícame este artículo, el forastero, por favor"; Creo que el párrafo anterior es relativamente autónomo en el contexto de la expresión génica.

Referencias:

  1. Sotiriou et. al., Clasificación y pronóstico del cáncer de mama según los perfiles de expresión génica de un estudio poblacional.

Respuestas (2)

Lo entiendo de la siguiente manera:

Para cada sonda tiene dos juegos de medidas, uno para ER+ y otro para ER-. Lo que hace es una prueba T (según tengo entendido, el "paramétrico" solo enfatiza que la prueba T es una prueba paramétrica) en estos dos conjuntos, probando si su media es significativamente diferente (se refieren a esto como "separados" ). Repite esta prueba para todas las 7650 sondas y obtienes un conjunto de 7650 valores p. Luego realiza una corrección de prueba múltiple, como una corrección de Bonferroni (no he verificado en el documento si lo hicieron, pero obviamente deberían hacerlo). Finalmente, encuentran que 606 de los valores p son significativos (para alguna elección de umbral), lo que sugiere que pueden "separar" ER+ de ER-.

Como biólogo computacional, le aconsejo que mire específicamente los artículos de bioinformática si está buscando desarrollar nuevos métodos, ya que el análisis en los artículos de "biología pura" a menudo puede faltar y no le daría una buena perspectiva del estado de la cuestión. -Métodos de análisis del arte. Específicamente para la cuestión de separar los grupos de la expresión génica, debe analizar el campo del aprendizaje automático, ya que se ha aplicado ampliamente a este problema.

Después de revisar el papel, el único ajuste que hicieron (sin explicación) es bajar el valor alfa crítico jr a 0.001, en lugar del 0.05 habitual. Con pruebas de ~7600 t, estos resultados son muy dudosos. Incluso con una corrección de Bonferroni relativamente sencilla, el valor alfa crítico debería ser 0,05/7600 ~= 6,6 * 10^-6.
@leonardo suena sospechoso... como dije, no tomaría esto como un ejemplo de buen análisis de datos. Aunque creo que en el tiempo transcurrido desde que se publicó ese artículo, algunos aspectos del análisis en los artículos de biología han mejorado, incluidas las correcciones de múltiples pruebas.
¡Gracias! ¿Alguno de ustedes sabe de un análisis de agrupamiento publicado de datos de micromatrices donde están disponibles los datos reales que se introdujeron en la gran caja negra? Como no soy biólogo, el procesamiento de datos "en bruto" es bastante difícil y parece ser un área de investigación en sí misma.
@MB: conozco dos bases de datos (probablemente haya más). ArrayExpress de EMBL ( ebi.ac.uk/arrayexpress ) y GEO de NCBI. De hecho, hay una lista más completa en Wikipedia: en.wikipedia.org/wiki/Microarray_databases .

Esta no es la respuesta que probablemente esté buscando, pero recomendaría no preocuparse por lo que quieren decir sobre su prueba en particular ... tal vez realmente estaban usando un mann-whitney pero su software (SPLUS) lo etiquetó como una "prueba t no paramétrica" ​​para el usuario final estadístico no capacitado formalmente

[actualización] : Leí mal el texto y pensé que usted (y el artículo) escribieron "prueba t no paramétrica", por lo que sugerí un posible error de mann-whitney de mi parte, lo siento. La segunda parte a continuación sigue en pie [/update]

De todos modos, han pasado nueve años desde que se publicó ese estudio y la comunidad de bioinformática prácticamente ha concretado el análisis de microarrays. A menos que tenga una razón específica para no hacerlo, casi siempre debería preferir usar limma primero para su análisis de dichos datos (datos de expresión a nivel de genes). Tiene una guía de usuario extremadamente completa para ayudarlo a comenzar.

Si está buscando lugares a los que acudir para hacer preguntas de seguimiento sobre su análisis, considere suscribirse a la lista de correo de bioconductores o diríjase al sitio de control de calidad de biostars .