Pasos para confirmar si el miRNA predicho es bueno o malo

Alineé todos los miRNA disponibles para los supercontigs de un genoma particular con ciertos parámetros (valor e de 0.01 y una coincidencia de palabras de al menos 7 como se sugiere en este documento). También aislé los pre-miARN (+100 nucleótidos de cada extremo del área de coincidencia). ¿Qué sugeriría como métodos ab-initio ideales para confirmar que estos miARN existen en ese genoma en particular? Algunos papeles que encontré usan mFOLD así .

¿Cuáles sugeriría como mejores pasos para confirmar si un miARN/pre-miARN predicho está realmente presente en el genoma?

puedes ver mi respuesta en tu publicación anterior ... Por cierto, ¿cómo obtuviste las secuencias de miARN?
@WYSIWYG Descargué todas las secuencias maduras disponibles en miRBase. Eliminar duplicados es un problema. ¿Qué sugeriría usted es una buena herramienta para eliminar miRNAs duplicados entre 30.000 secuencias.

Respuestas (1)

No habrá duplicados en miRBase (para un organismo dado). Elija el taxón más cercano a su organismo si está realizando un descubrimiento basado en la homología. Si desea tomar todos/muchos organismos, puede utilizar fastx_collapserpara colapsar secuencias redundantes. Sin embargo, perderá el nombre del miARN. También puede usar awkpara esto y mantendrá el encabezado de secuencia del primer organismo en la lista.

awk '/>/{$0=h} !(/>/){if($0 in a){next} else{a[$0];print h"\n"$0}}' organism1.fa organism2.fa ... organismN.fa

Asegúrese de que no haya saltos de línea adicionales; de lo contrario, es posible que necesite una pequeña modificación.

Para saber si algo es un miARN expresado, necesitaría hacer una pequeña secuenciación de ARN. Hay algunas herramientas como mirdeep y mirSVR que puede usar para descubrir secuencias de miARN.

¿Realmente necesito usar mirDeep ahora que estoy tratando de hacer coincidir la lista ya existente de todos los miARN disponibles con el genoma en lugar de encontrar nuevas secuencias novedosas? Pensé que para eso era miRdeep.
No solo encuentra nuevos miARN, sino que también comprueba características como la formación de horquillas y asigna puntuaciones. mirSVR usa un algoritmo de aprendizaje automático para encontrar miRNAs (aunque nunca lo he usado)