Quiero transformar una matriz de expresión de ARNm TCGA (en formato de datos lineales) para registrar 2 proporciones y luego ejecutar una selección de características (gen), seleccionando los 1000 genes más variantes (genes con una desviación estándar más alta en las muestras). El flujo de trabajo es el siguiente:
¿Cómo selecciono t y p ?
No existe una regla para fijar t y p . Depende del nivel de rigurosidad que esperes. El valor de t depende de lo que se considere una concentración activa; esto no tiene por qué ser igual para todos los genes.
Estos son datos de RNAseq; No entiendo cuál es la señal "mediana" de la que estás hablando. Para cada muestra, un gen tendría un valor de expresión normalizado que suele ser RPKM (lecturas por kilobase por millón de lecturas mapeadas). Si tiene réplicas para cada muestra, tome la media, no la mediana.
Con respecto al cálculo de relaciones logarítmicas: siempre tenga cuidado con esto, especialmente en el caso de ceros. En lugar de proporciones logarítmicas, puede usar algún tipo de métrica de ganancia:
si razón = x/y entonces ganancia = (xy)/y
También puede realizar un análisis de componentes principales de los datos y seleccionar los primeros n
componentes principales.
NaN
(indefinido)
devon ryan
terdón