¿Qué factores debo tener en cuenta al seleccionar un genoma de referencia para el mapeo?

Tengo la impresión de que el genoma de referencia más reciente suele ser el mejor caso. ¿Qué otras cosas debo considerar al seleccionar un genoma de referencia? Por ejemplo, ¿hay alguna razón particular para no elegir el genoma de referencia más reciente al alinear lecturas cortas de RNAseq?

Son muchos, y depende de información que no hayas presentado.
¡Bienvenido a Biología.SE! Si la respuesta dada no le convence, explique su pregunta y proporcione información general sobre el tipo de análisis que está pensando realizar. Considere también hacer el recorrido y consulte nuestras pautas para obtener buenas preguntas . ¡Disfrutar! :)
@James Soy consciente de esa falta de información, pero en mi nivel de experiencia en el tema, lamentablemente no puedo hacer preguntas más detalladas. Aunque espero que otros usuarios en mi nivel de conocimiento encuentren uso en las respuestas dadas (que es una especie de idea detrás de stackexchange, ¿no?). Investigar por mi cuenta simplemente no arrojó ningún resultado comprensible para mí...
@SebastianLobentanzer SE está diseñado para responder preguntas técnicas específicas. No funciona tan bien al proporcionar respuestas para preguntas de "introducción al tema" como esta. Si bien algunos usuarios están más que felices de intentar responder estas preguntas, rara vez obtendrá la respuesta que desea. Hay muchas maneras de mejorar su pregunta para que más personas puedan responderla. Vea el recorrido recomendado por Alex.
@James ¿Preguntas específicas? Sí. ¿Técnico? No necesariamente.
@DanielStandage Creo que buscaba una palabra que abarque "no trivial para responder". "Técnico" probablemente no sea la mejor palabra para usar.

Respuestas (1)

¡Hay muchas razones!

Supongamos que está utilizando el genoma de referencia humano. La última versión es hg38 o GrCh38. Esto salió hace aproximadamente tres años (diciembre de 2013). Aunque ahora estas mismas razones no se aplican realmente a esta asamblea en particular, no se me ocurre ninguna otra asamblea donde estas razones sean demostrables. Cuando se trata de datos de RNA-Seq, lleva a cabo algunas tareas comunes.

  1. Anotaciones: cuando sale un nuevo ensamblaje, todas las anotaciones existentes se estandarizan en el ensamblaje anterior. Tomemos, por ejemplo , GENCODE , que en particular enlaza con la versión actual de gencode, que ahora se basa en hg38. Pero, lo que es más importante, tenga en cuenta que aún mantienen la misma versión para hg19/GrCh37. Según mi experiencia, las bases de datos de anotaciones tardan entre 1 y 3 meses en migrar a un nuevo ensamblaje del genoma después de que se lanza el ensamblaje.
  2. Pistas de conservación: Son las pistas que tardan más en actualizarse. No voy a publicar un enlace a las pistas aquí. Pero, aquí está el navegador de tablas de UCSC , puede ir a las pistas de genómica comparativa y ver las pistas de conservación (Phylop, Phastcons) que están disponibles para cada ensamblaje. De nuevo por experiencia, llevó más de un año generar estas pistas para hg38. Por lo tanto, es mejor trabajar en el ensamblaje anterior si desea esta información en particular, porque generar estas pistas por sí mismo es una tarea muy tediosa y computacionalmente intensiva.
  3. Riesgos asociados con genomas inacabados: en realidad, esto no tiene que ver tanto con el genoma humano, ya que la ganancia es cada vez menor con cada ensamblaje consecutivo. Pero si se considera un ensamblaje que consiste en un 70 % de andamios, la variación entre ensamblajes tiende a ser enorme. Para los estudios funcionales a diferencia de los estudios insilico, no tiene sentido rehacer todo el análisis cada vez que sale un nuevo ensamblaje, ya que la parte insilico del estudio es el pilar predictivo en el que se basan las validaciones funcionales. Aunque no ocurre lo mismo con los estudios insilico donde los resultados presentados al público son únicamente predictivos.
  4. Incoherencia con los estudios existentes: este es un obstáculo importante para usar un ensamblaje más nuevo, especialmente aplicable a genomas inacabados, en los que los resultados pueden ser muy variables y no se alinean con el conocimiento preexistente. Por supuesto, usted puede ser el que está en lo correcto, pero también es posible que la variabilidad en sus resultados sea el resultado de un error humano. Por lo tanto, es mejor esperar un estudio de "punto de referencia" para presentar la asamblea al público, lo que permite que su estudio se someta a una lectura menos estricta y también le permite validar la variabilidad esperada en sus resultados.
  5. Dificultades durante el análisis funcional : para el análisis de RNA-Seq, es una práctica común usar RT-PCR para un gen en particular para establecer el nivel de expresión esperado para ese gen, lo que a su vez validará un experimento exitoso de RNA-Seq desprovisto de duplicaciones de PCR dudosas y artefactos Para esta parte en particular, primero crearía un manual, que valida el nivel de expresión esperado de ese gen. Pero esta cartilla particular se origina a partir de un ensamblaje particular. También es posible que la región que se amplifica se haya desplazado o cambiado entre ensamblajes. Entonces, cuando alinea sus datos en un ensamblaje diferente al que se usó para crear el iniciador, puede obtener un nivel de expresión inesperado para ese gen, ya que el iniciador original amplificó una región incorrecta, que se corrigió en el ensamblaje más nuevo.

Sé que hay muchos más. Pero, estos son los únicos que vienen a la mente en este momento.

Gracias por elaborar. Soy nuevo en Genómica, viniendo desde una perspectiva farmacológica. No importa que su respuesta no sea exhaustiva. Este definitivamente es un punto de partida desde donde puedo leer sobre aspectos por mi cuenta. ¡Gracias de nuevo!