Cómo se definen los umbrales de variación del número de copias en GISTIC

Tengo problemas para tratar de entender cómo GISTIC discretiza la variación del número de copias a los valores -2, -1, 0, 1, 2. Estoy usando la variación del número de copias TCGA para el adenocarcinoma colorrectal .

En cBioPortal FAQ está escrito que:

Para los estudios de TCGA, la tabla en all_thresholded.by_genes.txt (que es la parte de la salida GISTIC que se usa para determinar el estado del número de copias de cada gen en cada muestra en cBioPortal) se obtiene aplicando valores tanto bajos como altos. umbrales de nivel a los niveles de copia de genes de todas las muestras. Las entradas con un valor de +/- 2 superan los umbrales de alto nivel para amperios/dels, y aquellas con +/- 1 superan los umbrales de bajo nivel pero no los umbrales de alto nivel. Los umbrales de bajo nivel son solo los valores de entrada de umbral de ruido 'amp_thresh' y 'del_thresh' para GISTIC (normalmente 0,1 o 0,3) y son los mismos para todos los umbrales.

Por el contrario, los umbrales de alto nivel se calculan muestra por muestra y se basan en la mediana máxima (o mínima) del número de copias de amplificación (o eliminación) a nivel de brazo que se encuentra en la muestra. La idea, para las deleciones de todos modos, es que este nivel sea una buena aproximación para los hemicigotos dada la pureza y la ploidía de la muestra.

Los umbrales de bajo nivel son bastante claros, mientras que el umbral de alto nivel no (los que se usan para etiquetar valores +/-2).

Traté de aplicar ingeniería inversa a la función de discretización (los límites no están disponibles en Firebrowse). La mejor solución que encontré es, para cada muestra, a:

  • dividir los valores del número de copias en dos grupos (amplificados - valores positivos, eliminados - valores negativos)

  • para cada grupo (amplificado - eliminado)

    • calcule el valor medio del número de copias dentro de cada brazo cromosómico
    • tome el valor mediano máximo (mínimo para el grupo eliminado) entre los brazos y utilícelo como umbral más alto (más bajo)

Lo probé usando los archivos:

  • todos_los_datos_por_genes.txt
  • all_thresholded.by_genes.txt

tratando de obtener el valor discretizado correcto (-2, -1, 0, 1, 2) del segundo archivo del primero. Sin embargo, una pequeña parte de los valores no están mapeados correctamente. ¿Me estoy perdiendo de algo?

Respuestas (1)

La mejor solución es usar solo las alteraciones amplias, usando el archivo broad_values_by_arm.txt.

En particular, para cada muestra, el umbral más alto se calcula como la suma del umbral de ruido (bajo nivel) (por ejemplo, 0,1) más el valor máximo de variación del número de copias para la muestra en todos los brazos. De manera similar, el umbral más bajo es el valor mínimo para la muestra en todos los brazos más el umbral de ruido negativo (bajo nivel) (por ejemplo, -0,1).

si: Total copy number (major + minor allele copy number by SCAT R)para SMAD4 en una muestra = 4Th estimado ploidypor SCAT para esta muestra = 4.043696Entonces, el (requerido para GISTIC segment mean) para SMAD4 = log2(2 /4.043696) = -1.015675Si pongo -td thresholdcomo , ¿pierdo esta pérdida para SMAD4 en la salida GISTIC porque esto es > -1.015675? En otras palabras, ¿-td = 1.25 es lo mismo cuando ignoro cualquier segmento que signifique <-1.25? GISTIC1.25