¿Cómo filtrar selectivamente los resultados de BLAST para un LTR retroviral endógeno para recuperar miembros de la misma familia de ERV?

Estoy realizando una búsqueda BLAST local en una secuencia LTR de HERV-K (HML2) en el genoma humano. Recibo miles de visitas.

Quiero recuperar los hits que corresponden a otras secuencias LTR de HERV-K (HML2) solamente.

¿Qué longitud de alineación/filtros de identidad debo usar en los hits para seleccionar LTR de la misma familia? Las inserciones y eliminaciones podrían alterar fácilmente las longitudes de alineación, lo que significa que la longitud de corte para el filtro que quiero no está clara. Puedo averiguar qué cortes de longitud de alineación eliminan qué porcentaje de los resultados para identificar grandes caídas en cortes específicos, pero no ha sido muy útil.

Respuestas (2)

No creo que haya una respuesta definitiva a este problema, pero aquí hay algunas cosas que pueden ayudarlo, además de un filtro de longitud simple para los resultados:

  • Filtrar por regiones: dado que los LTR son repeticiones, es posible que obtenga múltiples resultados BLAST de la misma región/locus repetido (especialmente si su secuencia de entrada es más pequeña que dicha región). Probablemente desee conservar solo una coincidencia por región.

  • Busque una (sub)secuencia conservada: con suerte, su secuencia LTR específica tiene un "núcleo" que debe estar presente, para que pueda considerarse parte de su familia. Solo desea mantener los hits de BLAST que tienen una coincidencia absoluta para este 'núcleo'.

No sé cuál es su aplicación, pero RepBase tiene un conjunto seleccionado de loci ERV en un archivo BED que puede usar para recuperar secuencias/definir regiones de interés, etc.

Por supuesto, en términos generales, las regiones repetitivas pueden ser más difíciles de mapear en términos de ubicación genómica, y en mi laboratorio, donde estudiamos regularmente los ERV en el cáncer, generalmente mapeamos datos de RNAseq a secuencias de Repbase en un archivo fasta para derivar estimaciones de expresión total en un base por familia.