Estoy trabajando en un proyecto en el que quiero descubrir los genes causantes de una determinada enfermedad que pueda tener. Me preguntaba si obtener WGS o WES para realizar este experimento: -
Estoy viendo los SNP y CNV de mis genes y quiero comparar mis datos con los de individuos normales y enfermos. Para un gen, calculo la distancia del documento para cada grupo (normal y enfermo) usando este algoritmo ( https://math.stackexchange.com/questions/1080377/how-close-apart-are-two-message-document-distance- algoritmo ) ya que esto me permitirá determinar qué genes tengo que son anormales o están "cerca" de ser clasificados como anormales y qué genes son normales o "cerca" de ser llamados normales según el algoritmo y los datos obtenidos de los dos grupos .
Para realizar este experimento, necesito secuenciar mi genoma E identificar bases de datos que me permitan realizar mi análisis. Quería saber cuál es mejor para mi experimento WGS o WES, ya que los datos disponibles públicamente también pueden influir en la decisión.
Además, creo que el empalme alternativo agrega una capa de complejidad y quería saber por qué se realiza WES de todos modos.
Gracias de antemano por sus respuestas. Por favor responde lo que puedas. ¡Gracias una vez más!
WES, casi seguro. En primer lugar, la gran mayoría de las variantes causantes del fenotipo se encuentran en los exones. Para la mayoría de los análisis que buscan mutaciones que causan enfermedades, WGS no tiene sentido. Solo hace que su análisis sea más difícil y en realidad no agrega nada útil.
Si sabe que está interesado en las CNV, eso es diferente. La detección de CNV es difícil en general, pero es particularmente difícil a partir de datos WES. La detección de CNV en datos WGS es mucho menos propensa a errores. Sin embargo, debe tener en cuenta que actualmente no existen métodos "buenos" para detectar CNV. Este es un problema no trivial y todavía está en pañales. Si bien existen varios métodos que pueden detectar CNV, ninguno de ellos encuentra todos (o incluso casi todos). De hecho, este es un problema tal en el campo que la sabiduría actualmente aceptada es que debe usar múltiples métodos y combinar los resultados. De hecho, muchos detectores de CNV recientes hacen exactamente eso. y ellos todavíano los encuentre todos (especialmente no en los datos WES). Básicamente, la detección de CNV no es para los pusilánimes y ciertamente no es para los no expertos.
La buena noticia es que si tiene una mutación que causa la enfermedad, es muy poco probable que sea una CNV. Es mucho más probable que solo esté buscando SNP. Lo que nos lleva al siguiente número. Me temo que el algoritmo al que te vinculaste, por lo que puedo decir, no te ayudará en absoluto. No está tratando de comparar su gen con una lista de genes saludables y no saludables y averiguar qué grupo es más similar al que tiene. En primer lugar, porque hay muchas diferencias (mutaciones) que en realidad no tienen ningún efecto. Estas llamadas mutaciones sinónimastodavía sería contado por su algoritmo pero debe ser ignorado. En segundo lugar, porque las pequeñas diferencias pueden ser enormemente importantes. Hay herramientas específicas para lo que quieres hacer; no intente aplicar enfoques matemáticos amplios y generales. Necesita algoritmos que estén diseñados específicamente para manejar datos biológicos y que tengan en cuenta la biología subyacente.
Entonces, lo que está buscando son programas llamados "Variant Callers". Dos de los más populares son GATK y FreeBayes . Estos leerán un genoma de entrada y lo compararán con un genoma de referencia y le darán una lista de "variantes", sitios donde la entrada difiere de la referencia. Luego, desea utilizar recursos como ClinVar o MutationTaster para verificar si esas variantes se consideran patógenas. Esto es un poco de autopromoción desvergonzada ya que trabajo para la compañía que lo creó, pero VarSome , "El motor de búsqueda de variantes genómicas humanas" es un nuevo motor de búsqueda de variantes que combina información de muchas fuentes diferentes en una búsqueda centralizada y fácil. repositorio.
Sin embargo, antes de encontrar sus variantes, deberá alinear su genoma con la referencia. Básicamente, los métodos modernos de secuenciación funcionan cortando el genoma en muchas, muchas piezas pequeñas, copiando cada pieza varias veces y luego secuenciando cada pieza. Entonces, el resultado de una ejecución de secuenciación es un archivo de texto que se ve así:
@SN956:1934:H55WMBBXX:2:1101:0:15733 1:N:0:NTTACTCG
NCCCCAAGGAGACTTGCTGAGACCTTGAACAAGTGACACAATGTGAGCAGAACTTGTCTTGACAGAAAATGCTTTG
+
#AAAFJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJAJJJJFAJJJJJFJJ7
@SN956:1934:H55WMBBXX:2:1101:0:15743 1:N:0:NTTACTCG
NCTTCCTCACTAAAGTCCCATTTAGTGCTGATTGTGCTTTGGCTACTTCTCCTCTTGCCATTTTCCTGAACCCACG
+
#AAFFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJF
Suele ser varios gigabytes (algo así como ~2-3G para WES y >80G para WGS). Por lo tanto, la alineación de estas secuencias necesita una máquina poderosa y ni siquiera querrá intentar alinear secuencias WGS en su computadora portátil. Tomará semanas y probablemente fallará. Otra razón por la que debería preferir WES sobre WGS para esto. En mi trabajo, alineo rutinariamente los datos WGS con el genoma de referencia y eso puede ocupar fácilmente >100 GB de RAM .
La conclusión y lo que esta incoherente respuesta está tratando de transmitir es que:
Entonces, si realmente tiene dinero para pagar un análisis WGS (esto cuesta varios miles de euros/dólares, en caso de que no lo supiera), lo cual es muy sorprendente si solo es un particular, en lugar de gastarlo en WGS, obtenga un WES e invierta su dinero en contratar a un experto para que analice sus datos por usted. En serio, esto es lo que hago para ganarme la vida, realmente no pareces haber comprendido lo complicado que es. Y no, no estoy sugiriendo que me contrates :). Sin embargo, existen empresas que ofrecen este tipo de servicio. Úsalos, no reinventes la rueda.
Artículos de revisión útiles para la detección de CNV:
inhibidor
mgkrebbs
fisioterapeuta
WYSIWYG
terdón