Herramientas de análisis y datos de micromatrices

Microarray tiene varios usos, y para analizar los datos se utiliza una clasificación de función principal. Se utilizan muchos métodos para clasificar los datos, pero ¿cuáles son los mejores y los más utilizados? ¿Existen herramientas conocidas basadas en la web para el análisis de micromatrices? ¿Dónde puedo encontrar conjuntos de datos de perfiles de expresión génica, dónde puedo encontrar y comprender la matriz del conjunto de datos?

prueba el paquete de bioconductores.
Sebida y DGRP tienen datos disponibles
Ahora que lo pienso, la mayoría o la totalidad de los datos de expresión génica deben depositarse en línea; intente mirar el ómnibus de expresión génica. Y me hago eco recomendando bio conductor (en R)

Respuestas (1)

Esta es una pregunta bastante amplia y uno o dos libros le darán una respuesta más completa. Supongo que está interesado en los microarreglos de expresión. Los microarreglos de genotipado también son muy populares en estos días y, sin embargo, son bastante diferentes.

¿Dónde puedo entender la matriz del conjunto de datos? Esto es un poco confuso como pregunta, pero comenzaré con una descripción numérica. Los datos de micromatrices se pueden reducir a una matriz unidimensional de intensidades. Como vector de números, cada uno de los cuales representa la cantidad de una determinada especie de ARN en una muestra, tiene muchas interpretaciones. La mayor parte de lo que se dice aquí también se aplica a los datos de RNASeq.

Estos números dependen de la secuencia, es decir, no deben interpretarse como un recuento absoluto de un ARNm específico en la muestra, por lo que comparar dos entradas en el vector (por ejemplo, "el gen A tiene un 10 % más de ARN que el gen B") probablemente no ser util

Por esta razón, los experimentos de micromatrices generalmente se realizan como experimentos de diferencia, donde se comparan dos o más condiciones, produciendo una matriz de números, donde N filas representan N experimentos, y las M columnas representan cada una un conjunto de sonda/gen. La transpuesta de esta matriz también es común.

**Métodos para clasificar los resultados de microarrays. ** Tomando la matriz de datos, hay muchas formas de interpretar los datos en forma de matriz y la mayoría de ellas se han probado de manera creíble con datos de micromatrices.

Los más comunes son tomar un conjunto de conjuntos de sondas cuya acción biológica está relacionada (por ejemplo, todos en una vía metabólica) y mostrarlos como un mapa de calor donde las columnas se han agrupado mediante un algoritmo basado en la distancia para producir un árbol, donde los vecinos tienen la mayor similitud numérica.

mapa de calor

Para métodos puramente numéricos, a menudo se usa el análisis de componentes principales (a pesar de que este no es un gran método ), pero se han usado mapas autoorganizados, redes neuronales y casi cualquier algoritmo de aprendizaje automático.

Sin embargo, el método más común, con diferencia, es el análisis de variantes ( ANOVA ), en el que los conjuntos de sondas/genes se han puntuado según su varianza de mayor a menor. El caso más común de esto es un experimento de diferencia de dos condiciones donde las diferencias más grandes se toman como resultados. Este no es un gran experimento, pero los datos no son muy baratos de producir.

**Repositorios de datos de micromatrices ** Gene Expression Omnibus (GEO) es un repositorio de gran prestigio para datos de micromatrices, con más de un millón de conjuntos de datos. También tienen algunas herramientas, ver más abajo.

EMBL ArrayExpress afirma tener un poco más de datos que GEO (1,2 millones de ensayos).

Hay muchos sitios web especializados en microarrays, que se centran principalmente en un organismo en particular (E coli, por ejemplo) o problema (como el cáncer). Google es bastante útil para este tipo de cosas una vez que tiene las palabras clave correctas.

**Herramientas basadas en web para el análisis de micromatrices ** Hay varias herramientas que usará para el análisis de micromatrices y hay muchos sitios web para diferentes aspectos de estos datos. Voy a citar un par, pero las herramientas más utilizadas son las herramientas de línea de comandos como R/bioconductor o el software que viene del fabricante de la matriz.

GEO2R es una gran herramienta para buscar experimentos de datos de expresión. Hace una versión simple de ANOVA y realmente te ayudará a encontrar biología genial rápidamente.

VAMPIRE es una suite de análisis web para análisis de micromatrices. Escalar los datos en números desde imágenes a intensidades hasta análisis de datos para comparar varias matrices. Es probablemente uno de los sitios de análisis más completos que existen.

"Análisis de componentes principales" no "Análisis de componentes principales". Analiza componentes principales. Escribirlo mal puede demostrar por qué lo encuentra un problema, porque necesita comprender los principios detrás de los principales.
No veo por qué no estaría predispuesto a usar PCA pero sí predispuesto a aceptar agrupaciones de proximidad y mapas de autoorganización. No importa qué gallina pone el huevo. son huevos de gallina
No creo que sea una discusión en la que debamos participar, en esta sección de comentarios, pero en resumen, es posible que las personas que lo usan (en el enlace que proporcionó) no entiendan el significado de "componentes principales".