Estoy trabajando con algunas transcripciones novedosas de genes; antes de confirmar su existencia experimentalmente, me gustaría realizar un análisis bioinformático. Ya he considerado el potencial de codificación, la predicción del dominio de la proteína, los sitios de unión del factor de transcripción, la homología de secuencia y la estructura secundaria del ARN (todavía no estoy seguro de cómo usar este). Estas transcripciones se descubrieron usando RNA-Seq. ¿Existen otros elementos de genes/transcripciones confirmadas que deba buscar en la secuencia de mis transcripciones y los softwares correspondientes? (Puedo encontrar el software yo mismo si es necesario, pero me he quedado sin características para buscar). Me gustaría caracterizar estas transcripciones estructural y funcionalmente de la manera más completa posible, incluida la posible función de la proteína, la degradación del ARNm,
Parece que ha considerado la mayoría de las alternativas obvias (y gracias por aclarar la pregunta). Supongo que la primera pregunta en una transcripción empalmada alternativamente con un intrón retenido es si se mantiene el marco de lectura abierto de la proteína. Si hay un codón de terminación que ahora se convierte en marco debido al intrón, entonces la proteína normalmente se truncaría. El ARNm también podría ser objeto de degradación debido a la vía de descomposición mediada por tonterías (es decir, por la introducción de un codón de parada temprano).
Si la transcripción empalmada alternativamente carece de ORF significativos, o si hay un ORF pero no un codón de inicio de traducción adecuado, entonces ha ingresado al reino de los ARN no codificantes, de los cuales hay dos categorías sueltas, microARN (hay varias clases) o ARN largos no codificantes. la mayoría de los miARN tienen motivos de secuencia reconocibles, pueden estar contenidos en mir-Base y pueden ser complementarios (en parte) a un objetivo regulador en otra parte del genoma. Los lncRNA están menos definidos. Quizás el mejor criterio son las transcripciones que son lo suficientemente estables para ser detectadas, pero que carecen de características de codificación de proteínas notables. Ni siquiera creo que haya un consenso sobre la longitud mínima de una transcripción para ser considerado un lncRNA.
¿En qué tipo de bases de datos has buscado? Por ejemplo, el antiguo dbEST contiene todo tipo de lecturas cortas de ADNc de todo el planeta, que datan de 1992 (más o menos). La conservación evolutiva de los exones y los sitios de empalme, o los marcos de lectura, pueden usarse para respaldar la hipótesis de que una región transcrita tiene una función biológica.
Para una expedición de pesca realmente profunda, puede usar tblastn, etc. para tomar un potencial ORF traducido y buscar los 6 marcos de lectura traducidos conceptualmente de todas las secuencias en una base de datos; lleva más tiempo y puede haber muchas coincidencias falsas que tenga. para buscar, pero si está estudiando algo que nunca ha sido anotado, podría valer la pena considerarlo.
RE: ARN plegable (estructura secundaria) cada secuencia se puede plegar en algún tipo de estructura (pruébalo y verás), pero los bucles compactos estructuralmente conservados generalmente caen en una pequeña clase de familias seleccionadas (como GNRY). Los tallos son fáciles de encontrar, pero si el bucle monocatenario es enorme, ¿cuál es la probabilidad de que esa estructura se pliegue en tiempo real?
RE: TFBS no me queda nada claro a qué te refieres con esto. Los factores de transcripción se unen a dsDNA, no a ssRNA. Hay familias de dominios de proteínas que se unen al ARN, pero normalmente no con tal especificidad de secuencia. Entonces, a menos que esta transcripción empalmada alternativamente se transcriba desde algún tipo de promotor alternativo, no estoy seguro de dónde buscaría TFBS. Es cierto que algunos intrones grandes pueden contener regiones reguladoras para el gen en su conjunto (cf. el potenciador de cadena pesada de inmunoglobulina se almacena convenientemente en un intrón), pero no me queda claro si eso tendría un efecto cuando se transcribe en ARN.
Me gusta su idea de que un intrón retenido ahora podría contener un sitio de unión para un miARN regulador, pero si entiendo la teoría, esto conduciría a la degradación de la transcripción, por lo que sería más difícil de detectar.
Algunas sugerencias.
Para identificar la función, haga una búsqueda de homología. Hay poca anotación funcional de lncRNAs. Por lo tanto, la información basada en la homología solo se puede obtener para las secuencias de proteínas. Así que puedes probar estos:
perry
pMarkov
pMarkov
pMarkov
243
WYSIWYG
pMarkov