Cómo seleccionar genes antes de la relación log2 en una matriz de expresión génica RNASeq, según la mediana de la señal

Question

Cómo seleccionar genes antes de la relación log2 en una matriz de expresión génica RNASeq, según la mediana de la señal

tcga
Biología
Estadísticas
bioinformática
la expresion genica

gc5

Quiero transformar una matriz de expresión de ARNm TCGA (en formato de datos lineales) para registrar ₂ proporciones y luego ejecutar una selección de características (gen), seleccionando los 1000 genes más variantes (genes con una desviación estándar más alta en las muestras). El flujo de trabajo es el siguiente:

Seleccione los genes "buenos" antes de la relación log ₂ (genes cada uno con una señal media de al menos t en p % de las muestras);
En los genes seleccionados, ejecute la relación log ₂ , dividiendo cada gen por su señal mediana y luego log ₂ - transformando la matriz de resultados;
Seleccione los 1000 genes más variantes a lo largo de todas las muestras.

¿Cómo selecciono t y p ?

devon ryan

Cruz publicada en biostars: biostars.org/p/132301

terdón

@DevonRyan biostars no es parte de la red SE. Solo se realiza una publicación cruzada cuando se publica en diferentes sitios de Stack Exchange. ¡Difícilmente podemos esperar que la gente no escriba en ningún otro lugar de Internet si quiere publicar aquí! Solo queremos evitar la duplicación de información en la red SE.

Respuestas (1)

Cómo seleccionar genes antes de la relación log2 en una matriz de expresión génica RNASeq, según la mediana de la señal

@DevonRyan biostars no es parte de la red SE. Solo se realiza una publicación cruzada cuando se publica en diferentes sitios de Stack Exchange. ¡Difícilmente podemos esperar que la gente no escriba en ningún otro lugar de Internet si quiere publicar aquí! Solo queremos evitar la duplicación de información en la red SE.

WYSIWYG · Answer 1

No existe una regla para fijar t y p . Depende del nivel de rigurosidad que esperes. El valor de t depende de lo que se considere una concentración activa; esto no tiene por qué ser igual para todos los genes.

Estos son datos de RNAseq; No entiendo cuál es la señal "mediana" de la que estás hablando. Para cada muestra, un gen tendría un valor de expresión normalizado que suele ser RPKM (lecturas por kilobase por millón de lecturas mapeadas). Si tiene réplicas para cada muestra, tome la media, no la mediana.

Con respecto al cálculo de relaciones logarítmicas: siempre tenga cuidado con esto, especialmente en el caso de ceros. En lugar de proporciones logarítmicas, puede usar algún tipo de métrica de ganancia:

si
razón = x/y
entonces
ganancia = (xy)/y

También puede realizar un análisis de componentes principales de los datos y seleccionar los primeros ncomponentes principales.

Ok para la "mediana", fue un error. No entendí: "Siempre tenga cuidado con esto, especialmente en el caso de ceros", ¿qué quiso decir? Gracias
En caso de que la expresión sea cero en una muestra, la transformación de registro le dará NaN(indefinido)

Cómo seleccionar genes antes de la relación log2 en una matriz de expresión génica RNASeq, según la mediana de la señal

gc5

devon ryan

terdón

Respuestas (1)

WYSIWYG

gc5

WYSIWYG

Uso de RNA-seq para comparar la expresión génica entre pacientes en lugar de entre condiciones de control y experimentales

¿Qué información se puede extraer del transcurso del tiempo de los datos de RNA-Seq?

Comparación de los niveles de expresión génica entre el control y la enfermedad en diferentes momentos

Combinación de datos de expresión génica de dos especies

¿Cómo validar las interacciones regulatorias deducidas de los datos de expresión génica?

Comparación de series temporales de expresión génica in vitro e in vivo

Herramientas que toman una matriz de parentesco para la descorrelación filogenética

¿Bases de datos para gráficos de redes reguladoras de genes?

¿Múltiples transcritos que coinciden con el mismo gen en los datos de secuenciación de ARN ensamblados de novo, pero los valores de FPKM varían?

Comparación válida de la expresión génica entre varios genes en varias líneas celulares