Alineé todos los miRNA disponibles para los supercontigs de un genoma particular con ciertos parámetros (valor e de 0.01 y una coincidencia de palabras de al menos 7 como se sugiere en este documento). También aislé los pre-miARN (+100 nucleótidos de cada extremo del área de coincidencia). ¿Qué sugeriría como métodos ab-initio ideales para confirmar que estos miARN existen en ese genoma en particular? Algunos papeles que encontré usan mFOLD así .
¿Cuáles sugeriría como mejores pasos para confirmar si un miARN/pre-miARN predicho está realmente presente en el genoma?
No habrá duplicados en miRBase (para un organismo dado). Elija el taxón más cercano a su organismo si está realizando un descubrimiento basado en la homología. Si desea tomar todos/muchos organismos, puede utilizar fastx_collapser
para colapsar secuencias redundantes. Sin embargo, perderá el nombre del miARN. También puede usar awk
para esto y mantendrá el encabezado de secuencia del primer organismo en la lista.
awk '/>/{$0=h} !(/>/){if($0 in a){next} else{a[$0];print h"\n"$0}}' organism1.fa organism2.fa ... organismN.fa
Asegúrese de que no haya saltos de línea adicionales; de lo contrario, es posible que necesite una pequeña modificación.
Para saber si algo es un miARN expresado, necesitaría hacer una pequeña secuenciación de ARN. Hay algunas herramientas como mirdeep y mirSVR que puede usar para descubrir secuencias de miARN.
WYSIWYG
La última palabra