Estoy trabajando en mi primer proyecto relacionado con la secuenciación y estoy tratando de encontrar proteínas con una ID de PFAM específica ( PF11999 ). El proyecto se llama "MMETSP", busqué las anotaciones para esa identificación, identifiqué péptidos de señal usando SignalP y sus ubicaciones objetivo con una herramienta llamada MultiLoc2 (solo estaba buscando objetivos extracelulares).
De las muy pocas secuencias que quedaron después de todo este filtrado, ninguno de los bits de ADN comenzó con el código de par de bases "ATG", para metionina. ¿Cómo puede ser esto?
Usé el shell para calcular que solo el 1,83% de todas las secuencias comienzan con ATG.
¿Alguna idea sobre esto?
Si alguien se tropieza con esta pregunta, descubrí cuál era el problema al final:
contrariamente a mi suposición de que las secuencias de ADN estaban todas en la dirección correcta 5'3', resultó que encontramos el ORF exacto en la cadena complementaria en la otra dirección y quién sabe dónde más. Afortunadamente, MMETSP-Data también presentaba un directorio /pep, en el que las secuencias necesarias se encontraban en una versión limpia. Gracias por leer y buena suerte.
devon ryan
Birg3r
devon ryan
Birg3r
devon ryan
Birg3r