En la investigación del genoma, ¿cuál es el problema en Mapping que puede ser causado por lecturas demasiado cortas?

En el siguiente escenario: le dieron lecturas de secuencias cortas de ARN de plantas obtenidas de una máquina de secuenciación de última generación (fragmentos de 20 a 30 nucleótidos de longitud). Intenta mapearlos de nuevo en el genoma, pero una proporción significativa de ellos no se alinean.

La cuestión es: dar algunas explicaciones obvias de por qué puede fallar el alineamiento de secuencias cortas, además de posibles contaminaciones o dificultades técnicas durante la preparación del ARN.

Lo respondería porque las lecturas son cortas y debido a los intrones (ya que es ARN)

Otro escenario: hay algunos indicios de que las secuencias problemáticas provienen de un virus de ARN vegetal no caracterizado. ¿Qué harías después? ¿Cuáles son las advertencias específicas con lecturas de secuencia corta?

Recibí las preguntas anteriores, soy un estudiante de ciencias de la computación haciendo bioinformática, cualquier biólogo podría responder, se lo agradecería mucho.

¡Bienvenido a StackBiology! Tu pregunta parece una pregunta de tarea. Deberías echar un vistazo a la política de preguntas de la tarea . Debido a que realmente no ha mostrado intentos de responder la pregunta, es probable que nadie la responda. Además, siempre debe tratar de limitar sus publicaciones a una sola pregunta.
@ Remi.b No es una pregunta de tarea, es una pregunta de examen anterior. He intentado varias respuestas. Gracias
No existe una correlación entre el tamaño del fragmento y su probabilidad de surgir de una unión exón-exón. Algunas lecturas pueden surgir de los adaptadores. Por lo general, se filtran.
También puede estar interesado en ver la edición de ARN en plantas. Nuevamente, esto no se relaciona con el problema de las lecturas pequeñas.

Respuestas (2)

Siendo también bioinformático, no soy realmente lo que pediste, pero trabajo con genética de plantas, así que intentaré responder de todos modos.

Lo que estás mapeando es ARN. Entonces, como ya descubrió, los eventos de empalme serán un problema para el mapeo de las lecturas de un extremo a otro. Sin embargo, hay herramientas que administran eso, así que supongamos que usó una de ellas y aún así muchas de sus lecturas no se asignan. Para poner en el buen punto de WYSIWIG: otro evento que puede estropear sus alineaciones es la edición de ARN , aunque no es muy probable que esto cause que una alta proporción de lecturas no se alineen en absoluto.

Algunos alineadores pueden filtrar consultas "demasiado cortas", así que asegúrese de no estar usando uno de ellos.

Entonces, ¿has preprocesado tus lecturas? Si no lo ha hecho, es posible que queden secuencias de adaptadores. O puede que las lecturas tengan muy mala calidad, por lo que también están alineadas con mala calidad, por lo que podrían contarse como no alineadas.

Y luego verifique con qué se está alineando. Muchos genomas de plantas publicados también son de menor calidad , incluidas muchas bases no asignadas. Por lo tanto, podría haber grandes proporciones de su genoma de referencia que cuentan en la longitud del genoma, pero son solo N y nada se alineará allí.

Por último, pero no menos importante, su pensamiento sobre un virus también podría ser correcto. Dependiendo del experimento, puede haber ARN patógeno en su muestra, por lo tanto, compruébelo con una base de datos adecuada.

Si el problema es solo que las lecturas son "demasiado cortas" por cualquier motivo, intente ensamblar el transcriptoma antes de compararlo con su referencia.

Estimado @skymninge, la pregunta es de hecho una pregunta de examen, en realidad no estoy haciendo el experimento sino tratando de responderlas.
Bueno, entonces todas esas son posibilidades y la pregunta del examen como tal es bastante amplia. Para obtener una respuesta de ejemplo, deberá preguntarle a la persona que impartió la conferencia y calificó el examen.

No creo que sea posible responder a la parte 1 sin más información. Específicamente, ¿está utilizando un mapeador de empalmes, como Tophat? ¿Está utilizando un gtf predeterminado con coordenadas de exón putativas? Si es así, ¿es para una planta muy bien estudiada, como Arabidopsis, o algo completamente nuevo? Su respuesta no es correcta, los intrones se alinearían bien con el genoma. El alineador no sabe ni le importa que esa secuencia no deba estar en la muestra, eso no afectará el mapeo. Personalmente, no creo que haya una muy buena respuesta a la pregunta. Las lecturas cortas no tienen más probabilidades de fallar que las lecturas más largas. Es más probable que se mapeen en el lugar equivocado, pero eso no significa fallar en el mapeo.