Cómo seleccionar genes antes de la relación log2 en una matriz de expresión génica RNASeq, según la mediana de la señal

Quiero transformar una matriz de expresión de ARNm TCGA (en formato de datos lineales) para registrar 2 proporciones y luego ejecutar una selección de características (gen), seleccionando los 1000 genes más variantes (genes con una desviación estándar más alta en las muestras). El flujo de trabajo es el siguiente:

  1. Seleccione los genes "buenos" antes de la relación log 2 (genes cada uno con una señal media de al menos t en p % de las muestras);
  2. En los genes seleccionados, ejecute la relación log 2 , dividiendo cada gen por su señal mediana y luego log 2 - transformando la matriz de resultados;
  3. Seleccione los 1000 genes más variantes a lo largo de todas las muestras.

¿Cómo selecciono t y p ?

Cruz publicada en biostars: biostars.org/p/132301
@DevonRyan biostars no es parte de la red SE. Solo se realiza una publicación cruzada cuando se publica en diferentes sitios de Stack Exchange. ¡Difícilmente podemos esperar que la gente no escriba en ningún otro lugar de Internet si quiere publicar aquí! Solo queremos evitar la duplicación de información en la red SE.

Respuestas (1)

No existe una regla para fijar t y p . Depende del nivel de rigurosidad que esperes. El valor de t depende de lo que se considere una concentración activa; esto no tiene por qué ser igual para todos los genes.

Estos son datos de RNAseq; No entiendo cuál es la señal "mediana" de la que estás hablando. Para cada muestra, un gen tendría un valor de expresión normalizado que suele ser RPKM (lecturas por kilobase por millón de lecturas mapeadas). Si tiene réplicas para cada muestra, tome la media, no la mediana.

Con respecto al cálculo de relaciones logarítmicas: siempre tenga cuidado con esto, especialmente en el caso de ceros. En lugar de proporciones logarítmicas, puede usar algún tipo de métrica de ganancia:

si
razón = x/y
entonces
ganancia = (xy)/y

También puede realizar un análisis de componentes principales de los datos y seleccionar los primeros ncomponentes principales.

Ok para la "mediana", fue un error. No entendí: "Siempre tenga cuidado con esto, especialmente en el caso de ceros", ¿qué quiso decir? Gracias
En caso de que la expresión sea cero en una muestra, la transformación de registro le dará NaN(indefinido)