Secuenciación del genoma completo frente a secuenciación del exoma completo

Estoy trabajando en un proyecto en el que quiero descubrir los genes causantes de una determinada enfermedad que pueda tener. Me preguntaba si obtener WGS o WES para realizar este experimento: -

Estoy viendo los SNP y CNV de mis genes y quiero comparar mis datos con los de individuos normales y enfermos. Para un gen, calculo la distancia del documento para cada grupo (normal y enfermo) usando este algoritmo ( https://math.stackexchange.com/questions/1080377/how-close-apart-are-two-message-document-distance- algoritmo ) ya que esto me permitirá determinar qué genes tengo que son anormales o están "cerca" de ser clasificados como anormales y qué genes son normales o "cerca" de ser llamados normales según el algoritmo y los datos obtenidos de los dos grupos .

Para realizar este experimento, necesito secuenciar mi genoma E identificar bases de datos que me permitan realizar mi análisis. Quería saber cuál es mejor para mi experimento WGS o WES, ya que los datos disponibles públicamente también pueden influir en la decisión.

Además, creo que el empalme alternativo agrega una capa de complejidad y quería saber por qué se realiza WES de todos modos.

Gracias de antemano por sus respuestas. Por favor responde lo que puedas. ¡Gracias una vez más!

Difícil de responder sin saber más sobre la enfermedad. Creo que en muchos casos el exoma estaría bien, ya que cualquier enfermedad que tenga probablemente sea causada por una proteína que no funciona bien, pero la mutación también podría estar en un sitio de empalme o secuencia reguladora. Con la secuenciación del genoma completo obtendrías MUCHA basura, ya que todos somos genéticamente diferentes.
Posiblemente, con la excepción de algunas CNV, es poco probable que una medida de "distancia" de las diferencias en la secuencia del genoma arroje algo útil. Una sola diferencia de base puede tener enormes consecuencias o no tener ninguna consecuencia a pesar de tener la misma medida de distancia.
¡Gracias a ambos por sus respuestas! Tengo una lista de genes candidatos que fueron identificados por estudios GWA. Estaba pensando en perfilar solo esos genes y buscar pistas. Como @mgkrebbs señaló correctamente que una sola diferencia de base puede marcar la diferencia o ninguna diferencia me hace cuestionar mi método. ¿Pueden sugerir alternativas?
Si tiene el dinero y las computadoras decentes, vaya a WGS. Definitivamente es más informativo que WES. La gente realiza la secuenciación del exoma principalmente para ahorrar recursos.
@WYSIWYG también es mucho, mucho más fácil extraer información significativa de WES.

Respuestas (1)

WES, casi seguro. En primer lugar, la gran mayoría de las variantes causantes del fenotipo se encuentran en los exones. Para la mayoría de los análisis que buscan mutaciones que causan enfermedades, WGS no tiene sentido. Solo hace que su análisis sea más difícil y en realidad no agrega nada útil.

Si sabe que está interesado en las CNV, eso es diferente. La detección de CNV es difícil en general, pero es particularmente difícil a partir de datos WES. La detección de CNV en datos WGS es mucho menos propensa a errores. Sin embargo, debe tener en cuenta que actualmente no existen métodos "buenos" para detectar CNV. Este es un problema no trivial y todavía está en pañales. Si bien existen varios métodos que pueden detectar CNV, ninguno de ellos encuentra todos (o incluso casi todos). De hecho, este es un problema tal en el campo que la sabiduría actualmente aceptada es que debe usar múltiples métodos y combinar los resultados. De hecho, muchos detectores de CNV recientes hacen exactamente eso. y ellos todavíano los encuentre todos (especialmente no en los datos WES). Básicamente, la detección de CNV no es para los pusilánimes y ciertamente no es para los no expertos.

La buena noticia es que si tiene una mutación que causa la enfermedad, es muy poco probable que sea una CNV. Es mucho más probable que solo esté buscando SNP. Lo que nos lleva al siguiente número. Me temo que el algoritmo al que te vinculaste, por lo que puedo decir, no te ayudará en absoluto. No está tratando de comparar su gen con una lista de genes saludables y no saludables y averiguar qué grupo es más similar al que tiene. En primer lugar, porque hay muchas diferencias (mutaciones) que en realidad no tienen ningún efecto. Estas llamadas mutaciones sinónimastodavía sería contado por su algoritmo pero debe ser ignorado. En segundo lugar, porque las pequeñas diferencias pueden ser enormemente importantes. Hay herramientas específicas para lo que quieres hacer; no intente aplicar enfoques matemáticos amplios y generales. Necesita algoritmos que estén diseñados específicamente para manejar datos biológicos y que tengan en cuenta la biología subyacente.

Entonces, lo que está buscando son programas llamados "Variant Callers". Dos de los más populares son GATK y FreeBayes . Estos leerán un genoma de entrada y lo compararán con un genoma de referencia y le darán una lista de "variantes", sitios donde la entrada difiere de la referencia. Luego, desea utilizar recursos como ClinVar o MutationTaster para verificar si esas variantes se consideran patógenas. Esto es un poco de autopromoción desvergonzada ya que trabajo para la compañía que lo creó, pero VarSome , "El motor de búsqueda de variantes genómicas humanas" es un nuevo motor de búsqueda de variantes que combina información de muchas fuentes diferentes en una búsqueda centralizada y fácil. repositorio.

Sin embargo, antes de encontrar sus variantes, deberá alinear su genoma con la referencia. Básicamente, los métodos modernos de secuenciación funcionan cortando el genoma en muchas, muchas piezas pequeñas, copiando cada pieza varias veces y luego secuenciando cada pieza. Entonces, el resultado de una ejecución de secuenciación es un archivo de texto que se ve así:

@SN956:1934:H55WMBBXX:2:1101:0:15733 1:N:0:NTTACTCG
NCCCCAAGGAGACTTGCTGAGACCTTGAACAAGTGACACAATGTGAGCAGAACTTGTCTTGACAGAAAATGCTTTG
+
#AAAFJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJAJJJJFAJJJJJFJJ7
@SN956:1934:H55WMBBXX:2:1101:0:15743 1:N:0:NTTACTCG
NCTTCCTCACTAAAGTCCCATTTAGTGCTGATTGTGCTTTGGCTACTTCTCCTCTTGCCATTTTCCTGAACCCACG
+
#AAFFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJF

Suele ser varios gigabytes (algo así como ~2-3G para WES y >80G para WGS). Por lo tanto, la alineación de estas secuencias necesita una máquina poderosa y ni siquiera querrá intentar alinear secuencias WGS en su computadora portátil. Tomará semanas y probablemente fallará. Otra razón por la que debería preferir WES sobre WGS para esto. En mi trabajo, alineo rutinariamente los datos WGS con el genoma de referencia y eso puede ocupar fácilmente >100 GB de RAM .

La conclusión y lo que esta incoherente respuesta está tratando de transmitir es que:

  • WES es mejor que WGS cuando se buscan mutaciones que causan enfermedades. Es mucho más fácil analizar los datos y el 99% de los casos que desea están en exones. También es mucho, mucho más barato.
  • Esto no es sencillo. Parece que piensas que puedes entrar y hacerlo tú mismo. Puedes, pero está muy lejos de ser trivial. Tampoco es barato.

Entonces, si realmente tiene dinero para pagar un análisis WGS (esto cuesta varios miles de euros/dólares, en caso de que no lo supiera), lo cual es muy sorprendente si solo es un particular, en lugar de gastarlo en WGS, obtenga un WES e invierta su dinero en contratar a un experto para que analice sus datos por usted. En serio, esto es lo que hago para ganarme la vida, realmente no pareces haber comprendido lo complicado que es. Y no, no estoy sugiriendo que me contrates :). Sin embargo, existen empresas que ofrecen este tipo de servicio. Úsalos, no reinventes la rueda.

Referencias

Artículos de revisión útiles para la detección de CNV:

  1. Zhao et al. BMC Bioinformatics , 2013, 14 (suplemento 11):S1 (DOI: 10.1186/1471-2105-14-S11-S1, enlace )
  2. Tattini L, D'Aurizio R y Magi A Frente. Bioing. Biotecnología , 2015. 3:92 . (DOI: 10.3389/fbioe.2015.00092, enlace )