Cómo calcular CNV a partir de datos TCGA

TCGA proporciona datos CNV para cada caso como este .

Quiero saber, ¿cómo puedo calcular los CNV a partir de estos datos? ¿Cuáles son los algoritmos y métodos estándar utilizados?

Hola. Ya no se puede acceder al enlace que proporcionó. ¿Puede proporcionar información sobre qué o qué archivos utilizó para extraer las CNV?

Respuestas (3)

La variación del número de copias (CNV) se ha detectado tradicionalmente en el laboratorio húmedo a través de FISH, hibridación fluorescente in situ. Al combinar oligos de ADN dirigidos a proteínas indicadoras fluorescentes, una región con un CNV alto "brillará más intensamente" que una región que no tiene tantas repeticiones.

Más recientemente, con la secuenciación de próxima generación, un enfoque común es alinear las lecturas de secuenciación con el genoma de referencia. Si una región particular en la muestra secuenciada tiene una CNV grande, entonces debería haber una cantidad desproporcionada de lecturas (2x, 3x, etc.) que mapean el locus de la CNV en el genoma de referencia en comparación con el resto del genoma.

Por ejemplo, si nuestra muestra secuenciada tiene 3-CNV para la región B:

A B B B C

luego alineamos nuestras lecturas secuenciadas con el genoma de referencia, que es:

A B C

producirá una cobertura de 1x en la región A, una cobertura de 3x en la región B y una cobertura de 1x en la región C.

Hay, por supuesto, enfoques más sofisticados. Para una buena revisión, consulte http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0059128

Gracias por la respuesta. En mi enlace de TCGA, cada archivo CNV contiene una columna num_probes, ¿sabe qué significa esta columna o cuál sería la interpretación de esta columna?
Sí, lo más probable es que los datos provengan de conjuntos de chips SNP de alta resolución (principalmente affymetrix), y estos tienen sondas para coordenadas genómicas específicas. Luego, las intensidades se combinan en segmentos distintos con estimaciones de número de copias similares para producir los archivos segmentados que tiene. El número de sondas en la matriz que se encuentran en un segmento dado es la columna num_probes. ¿Qué planea hacer en particular en términos de análisis posteriores?

Los archivos a los que hace referencia son archivos completamente procesados ​​en formato SEG. Los archivos básicos se calculan utilizando tanto la línea germinal como la CNV somática, mientras que los archivos denominados nocnv son solo somáticos (los números diferirán porque se calculan juntos o no juntos, así que no los mezcle ni combine).

Entre muchas herramientas, puede usar IGV de Broad Instutute para ver archivos SEG a un nivel algo alto, o puede usar varios paquetes R, es decir, Bioconductor, para hacer su propio análisis. Probablemente necesitará hacer esto de todos modos para anotar los nombres de los genes en los datos. Puede encontrar un poco de instrucciones aquí o aquí . IGV sabrá qué genes está buscando en función del ensamblaje de cromosomas, y puede abrirlo con bastante facilidad usando Java Web Start. Sin embargo, estoy lejos de ser un experto.

Más allá de eso, debe hacer algunas consideraciones adicionales basadas en su experiencia. Por ejemplo, en este artículo, los autores establecieron puntos de corte para INDELS al filtrar los valores medios de segmento entre -0.2 y 0.2 ( ref ). También filtran cualquier marcador para el que 'num.mark' < 10, donde 'num.mark' es el número de sondas affymetrix reales detectadas, para dar cuenta de los falsos positivos.

Entonces, lo que queda es el cromosoma, el segmento que abarca la sonda y la media log2 de las intensidades de microarreglo calculadas. Entonces, para esa región del cromosoma, loc.start a loc.end, una media de segmento de 2 significaría un cambio de 4 veces en el número de copias sobre la referencia para esa región.

Creo que el punto para llevar a casa es que se ha hecho el trabajo preliminar en los datos, y los datos TCGA de nivel 3, como los archivos .seg, son fuentes listas para usar de datos CNV. Sus tareas importantes serán anotar, visualizar y asignar significado biológico/estadístico a sus datos.

Gracias por una buena explicación. Solo para aclarar, ¿debería ignorar los datos si num_probes < 10 O segment_mean entre -0.2 y 0.2?
Depende de lo que quieras analizar. Si tiene una media de segmento significativa pero apenas sondas, podría ser solo ruido o un SNP real en lugar de una CNV. Luego, para las medias de los segmentos, establecen límites: si su media está por debajo de su referencia, podría ser una eliminación (expresión negativa) y no está analizando las eliminaciones. Eligieron >0.2 porque cualquier valor inferior puede ser ruido o ausencia de amplificación (se podrían argumentar números diferentes. La idea sería filtrar AMBOS para obtener datos de alta calidad.

Considere también, además de las sugerencias de CMosychuk, pegar cosas a través de ABSOLUTE (particularmente si también tiene un archivo MAF de mutación, que puede obtener del proyecto MC3 en SAGE Synapse). La ventaja de esto es la capacidad de estimar y dar cuenta de la pureza y derivar valores absolutos del número de copias. EXPANDS es otro paquete de R que puede hacer una estimación absoluta del número de copias.

¿Qué es el número absoluto de copias? ¿Cómo sería útil? Lo siento, soy del fondo de la computadora.
Por lo general, los datos del número de copias son relativos, se obtiene una proporción en términos de tumor frente a normal; esto no le dice cuántas copias de un gen dado están realmente presentes en un tumor y, de ser así, en cuántas células hay en un tumor. El número absoluto de copias es el número real de copias por celda. ABSOLUTE construye un modelo probabilístico y ajusta combinaciones de pureza y ploidía para derivar el número absoluto de copias.