Análisis de expresión génica diferencial entre especies

Tengo datos de ARN Seq de piel humana y de ratón (2 réplicas cada uno) y quiero comparar la expresión de los genes ortólogos para encontrar alguno que se exprese de forma diferencial. He normalizado cuantil la matriz de expresión génica en las 4 muestras (2 ratones + 2 humanos). Eventualmente quiero calcular el cambio logarítmico en la expresión de todos los genes ortólogos entre las 2 especies. Sin embargo, antes de hacer esto, debo controlar la longitud del gen, ¿verdad? ¿Será esto suficiente para darme una idea de los genes expresados ​​diferencialmente o debería emplear métodos más sofisticados? Cualquier comentario sería útil. Muchas gracias.

Esto podría ser más adecuado en Cross Validated .

Respuestas (1)

Depende del tipo de datos que tengas, realmente. Hay métodos desarrollados únicamente para cuantificar la expresión relativa basada en datos de conteo, como el uso de edgeR o limma-voom.

No necesita corregir la longitud del gen para estimar los cambios de expresión relativa, lo que debe hacer es normalizar primero por el tamaño de la biblioteca (y en el proceso obtener log2 ((recuentos + 0.5)/1e+06) y luego , siguiendo la normalización del cuantil, puede calcular ratón - humano o humano - ratón para obtener una estimación del cambio de pliegue.

Sin embargo, aún recomendaría usar algo un poco más sofisticado como limma-voom para esta tarea, porque eso también le permitirá obtener cosas como tasas de descubrimiento falso para sus cambios de pliegue.

Tengo datos de conteo. Sin embargo, la razón por la que dudo en usar paquetes como edgeR o DESeq2 es porque están destinados a comparar la expresión del mismo gen entre 2 condiciones. Por otro lado, quiero comparar la expresión de genes ortólogos (genes diff con longitudes diff) entre 2 especies. Además, si estoy realizando una normalización de cuantiles (es decir, imponiendo la misma distribución en todas las muestras), ¿debo seguir controlando el tamaño de la biblioteca?
Sí, es la norma controlar el tamaño de la biblioteca y luego normalizar el cuantil: siempre debe controlar la cantidad de conteos para cuántas lecturas se secuenciaron por muestra. Los ortólogos con diferentes longitudes deberían estar bien; quiero decir, en cualquier caso, limma-voom, por ejemplo, estima la expresión diferencial a nivel de genes sin tener en cuenta las isoformas (que tienen diferentes longitudes). Los ortólogos técnicamente pueden considerarse variantes de los mismos genes, así que tal vez inténtelo.
Gracias por tu respuesta. Pero el hecho de que limma (y otros métodos basados ​​en conteo) no tengan en cuenta las transcripciones de diferencias es una limitación (por ejemplo: si la transcripción 1 del gen A tiene 20 lecturas en la condición A y la transcripción 2 del gen A tiene 20 lecturas en la condición B, no encuentre la transcripción 1 y 2 expresada diferencialmente...mientras que dependiendo del gen esto puede ser biológicamente relevante). Es por eso que dudo en usar estos métodos para mi análisis.
De todos modos, se encontrará con problemas similares si está comparando ortólogos solo por cambios de pliegue; la única forma de sortear esto es derivar recuentos específicos de exón, en cuyo caso, limma tiene una función de empalme diferencial para verificar el empalme diferencial. o puede usar RSEM para estimar recuentos de isoformas comparables en sus organismos y luego, en lugar de recuentos de genes, utilice recuentos de isoformas.