Decidir un umbral razonable para la variación del número de copias en un conjunto de datos TCGA CNV (matriz SNP)

¿Existe una metodología para seleccionar un umbral razonable para la variación del número de copias en un conjunto de datos TCGA CNV (arreglo SNP), para definir cuándo hay una alteración significativa?

¿Puedo descargar datos CNV para muestras normales y tomar el percentil 95 de distribución? ¿Hay mejores métodos?

Actualizar

Esta es la gráfica de percentiles de las dos distribuciones (Tumor vs Normal) de valores, para la misma tecnología (matriz SNP) y el mismo genoma (hg19).

La distribución tumoral tiene valores un poco más extremos, aunque en mi opinión no es suficiente. Por esta razón, creo que no debería usar un puntaje percentil (el percentil 5 y el percentil 95 de la distribución de muestras normales, por ejemplo) para definir los umbrales para llamar alteraciones de CNV en las muestras tumorales.

distribuciones

Respuestas (2)

Su enfoque sugerido de comparar punto por punto con la distribución de referencia no está mal, aunque será susceptible a pequeños falsos positivos debido al ruido. Probablemente querrá usar solo eventos que abarquen un cierto número mínimo de observaciones consecutivas.

También es posible que desee ver la segmentación binaria circular, como se describe aquí: http://www.ncbi.nlm.nih.gov/pubmed/15475419 .

He actualizado mi pregunta, ¿podría echarle un vistazo y decirme qué piensa?
Hmm, está bien, creo que ya veo. No, no desea comparar la intensidad del tumor en ninguna posición con la distribución del 5 al 95 % de lo normal en toda la matriz. Quiere comparar la intensidad del tumor en una posición con la normal en esa posición . Esto normalizará las diferencias de unión específicas de secuencia.

Existen muchos métodos para el análisis de la CNV. Si es un usuario de R , le recomendaría que eche un vistazo a la lista de paquetes de bioconductores , en particular, la sección para la variación del número de copias . ¡Actualmente contiene 50 paquetes!