¡Hay muchas razones!
Supongamos que está utilizando el genoma de referencia humano. La última versión es hg38 o GrCh38. Esto salió hace aproximadamente tres años (diciembre de 2013). Aunque ahora estas mismas razones no se aplican realmente a esta asamblea en particular, no se me ocurre ninguna otra asamblea donde estas razones sean demostrables. Cuando se trata de datos de RNA-Seq, lleva a cabo algunas tareas comunes.
- Anotaciones: cuando sale un nuevo ensamblaje, todas las anotaciones existentes se estandarizan en el ensamblaje anterior. Tomemos, por ejemplo , GENCODE , que en particular enlaza con la versión actual de gencode, que ahora se basa en hg38. Pero, lo que es más importante, tenga en cuenta que aún mantienen la misma versión para hg19/GrCh37. Según mi experiencia, las bases de datos de anotaciones tardan entre 1 y 3 meses en migrar a un nuevo ensamblaje del genoma después de que se lanza el ensamblaje.
- Pistas de conservación: Son las pistas que tardan más en actualizarse. No voy a publicar un enlace a las pistas aquí. Pero, aquí está el navegador de tablas de UCSC , puede ir a las pistas de genómica comparativa y ver las pistas de conservación (Phylop, Phastcons) que están disponibles para cada ensamblaje. De nuevo por experiencia, llevó más de un año generar estas pistas para hg38. Por lo tanto, es mejor trabajar en el ensamblaje anterior si desea esta información en particular, porque generar estas pistas por sí mismo es una tarea muy tediosa y computacionalmente intensiva.
- Riesgos asociados con genomas inacabados: en realidad, esto no tiene que ver tanto con el genoma humano, ya que la ganancia es cada vez menor con cada ensamblaje consecutivo. Pero si se considera un ensamblaje que consiste en un 70 % de andamios, la variación entre ensamblajes tiende a ser enorme. Para los estudios funcionales a diferencia de los estudios insilico, no tiene sentido rehacer todo el análisis cada vez que sale un nuevo ensamblaje, ya que la parte insilico del estudio es el pilar predictivo en el que se basan las validaciones funcionales. Aunque no ocurre lo mismo con los estudios insilico donde los resultados presentados al público son únicamente predictivos.
- Incoherencia con los estudios existentes: este es un obstáculo importante para usar un ensamblaje más nuevo, especialmente aplicable a genomas inacabados, en los que los resultados pueden ser muy variables y no se alinean con el conocimiento preexistente. Por supuesto, usted puede ser el que está en lo correcto, pero también es posible que la variabilidad en sus resultados sea el resultado de un error humano. Por lo tanto, es mejor esperar un estudio de "punto de referencia" para presentar la asamblea al público, lo que permite que su estudio se someta a una lectura menos estricta y también le permite validar la variabilidad esperada en sus resultados.
- Dificultades durante el análisis funcional : para el análisis de RNA-Seq, es una práctica común usar RT-PCR para un gen en particular para establecer el nivel de expresión esperado para ese gen, lo que a su vez validará un experimento exitoso de RNA-Seq desprovisto de duplicaciones de PCR dudosas y artefactos Para esta parte en particular, primero crearía un manual, que valida el nivel de expresión esperado de ese gen. Pero esta cartilla particular se origina a partir de un ensamblaje particular. También es posible que la región que se amplifica se haya desplazado o cambiado entre ensamblajes. Entonces, cuando alinea sus datos en un ensamblaje diferente al que se usó para crear el iniciador, puede obtener un nivel de expresión inesperado para ese gen, ya que el iniciador original amplificó una región incorrecta, que se corrigió en el ensamblaje más nuevo.
Sé que hay muchos más. Pero, estos son los únicos que vienen a la mente en este momento.
Jaime
AlexDeLarge
Sebastián Lobentanzer
Jaime
Daniel Standage
Jaime