TCGA proporciona datos CNV para cada caso como este .
Quiero saber, ¿cómo puedo calcular los CNV a partir de estos datos? ¿Cuáles son los algoritmos y métodos estándar utilizados?
La variación del número de copias (CNV) se ha detectado tradicionalmente en el laboratorio húmedo a través de FISH, hibridación fluorescente in situ. Al combinar oligos de ADN dirigidos a proteínas indicadoras fluorescentes, una región con un CNV alto "brillará más intensamente" que una región que no tiene tantas repeticiones.
Más recientemente, con la secuenciación de próxima generación, un enfoque común es alinear las lecturas de secuenciación con el genoma de referencia. Si una región particular en la muestra secuenciada tiene una CNV grande, entonces debería haber una cantidad desproporcionada de lecturas (2x, 3x, etc.) que mapean el locus de la CNV en el genoma de referencia en comparación con el resto del genoma.
Por ejemplo, si nuestra muestra secuenciada tiene 3-CNV para la región B:
luego alineamos nuestras lecturas secuenciadas con el genoma de referencia, que es:
producirá una cobertura de 1x en la región A, una cobertura de 3x en la región B y una cobertura de 1x en la región C.
Hay, por supuesto, enfoques más sofisticados. Para una buena revisión, consulte http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0059128
num_probes
, ¿sabe qué significa esta columna o cuál sería la interpretación de esta columna?Los archivos a los que hace referencia son archivos completamente procesados en formato SEG. Los archivos básicos se calculan utilizando tanto la línea germinal como la CNV somática, mientras que los archivos denominados nocnv son solo somáticos (los números diferirán porque se calculan juntos o no juntos, así que no los mezcle ni combine).
Entre muchas herramientas, puede usar IGV de Broad Instutute para ver archivos SEG a un nivel algo alto, o puede usar varios paquetes R, es decir, Bioconductor, para hacer su propio análisis. Probablemente necesitará hacer esto de todos modos para anotar los nombres de los genes en los datos. Puede encontrar un poco de instrucciones aquí o aquí . IGV sabrá qué genes está buscando en función del ensamblaje de cromosomas, y puede abrirlo con bastante facilidad usando Java Web Start. Sin embargo, estoy lejos de ser un experto.
Más allá de eso, debe hacer algunas consideraciones adicionales basadas en su experiencia. Por ejemplo, en este artículo, los autores establecieron puntos de corte para INDELS al filtrar los valores medios de segmento entre -0.2 y 0.2 ( ref ). También filtran cualquier marcador para el que 'num.mark' < 10, donde 'num.mark' es el número de sondas affymetrix reales detectadas, para dar cuenta de los falsos positivos.
Entonces, lo que queda es el cromosoma, el segmento que abarca la sonda y la media log2 de las intensidades de microarreglo calculadas. Entonces, para esa región del cromosoma, loc.start a loc.end, una media de segmento de 2 significaría un cambio de 4 veces en el número de copias sobre la referencia para esa región.
Creo que el punto para llevar a casa es que se ha hecho el trabajo preliminar en los datos, y los datos TCGA de nivel 3, como los archivos .seg, son fuentes listas para usar de datos CNV. Sus tareas importantes serán anotar, visualizar y asignar significado biológico/estadístico a sus datos.
Considere también, además de las sugerencias de CMosychuk, pegar cosas a través de ABSOLUTE (particularmente si también tiene un archivo MAF de mutación, que puede obtener del proyecto MC3 en SAGE Synapse). La ventaja de esto es la capacidad de estimar y dar cuenta de la pureza y derivar valores absolutos del número de copias. EXPANDS es otro paquete de R que puede hacer una estimación absoluta del número de copias.
Redwanul Haque Sourave