¿Cuáles son algunos métodos (bioinformáticos) para caracterizar transcripciones de genes potencialmente novedosos?

Estoy trabajando con algunas transcripciones novedosas de genes; antes de confirmar su existencia experimentalmente, me gustaría realizar un análisis bioinformático. Ya he considerado el potencial de codificación, la predicción del dominio de la proteína, los sitios de unión del factor de transcripción, la homología de secuencia y la estructura secundaria del ARN (todavía no estoy seguro de cómo usar este). Estas transcripciones se descubrieron usando RNA-Seq. ¿Existen otros elementos de genes/transcripciones confirmadas que deba buscar en la secuencia de mis transcripciones y los softwares correspondientes? (Puedo encontrar el software yo mismo si es necesario, pero me he quedado sin características para buscar). Me gustaría caracterizar estas transcripciones estructural y funcionalmente de la manera más completa posible, incluida la posible función de la proteína, la degradación del ARNm,

La versión actual de su pregunta no está clara. Las lecturas de RNA-Seq que está analizando claramente existen (de lo contrario, no habría nada que analizar), pero su pregunta hace que parezca que la transcripción no existe. Si la transcripción no existe, ¿cuál es su hipótesis alternativa? ¿De dónde podrían venir las lecturas?
¡Gracias por su respuesta! Permítanme aclarar: estas transcripciones se crean mediante empalme alternativo y son únicas porque contienen intrones retenidos. Sus niveles de expresión son bastante bajos, y me han dicho que existe una probabilidad significativa de que sean simplemente artefactos (no estoy muy familiarizado con rna-seq para entender dónde puede surgir esto): las transcripciones "novedosas" con retención de intrones aparentemente no a menudo resisten la validación experimental. Quiero obtener evidencia de que existen in silico antes de pasar a qpcr.
Además, me gustaría caracterizar estas transcripciones tanto como sea posible, obtener información sobre si serían solo transcripciones no codificantes o si serían de algún interés. potencial, y nuevos tfbs. Esencialmente, quiero obtener la mayor información posible sobre la estructura y la función potencial de esta transcripción, usando solo la secuencia. ¡Solo soy un estudiante, así que pida más aclaraciones! * Edité la pregunta para que coincida con mis respuestas aquí.
@mdperry: como ejemplo, actualmente estoy buscando un sitio potencial de unión de miARN introducido en la transcripción a través de la retención de intrones. ¡Estoy abierto a la investigación de cualquier característica interesante que estas transcripciones puedan traer!
Es posible que desee verificar las secuencias genómicas y cómo se empalma la transcripción para que se puedan confirmar los datos de RNA-seq. También puede encontrar isoformas de empalme alternativas. Podría comprobar las señales de poli A en la secuencia genómica.
¿Cómo se preparó la biblioteca? ¿Poly-A o Ribo-menos? En primer lugar, debe validar las transcripciones de la novela. A veces puede terminar con falsos positivos.
@WYSIWYG La biblioteca se preparó Poly-A. Actualmente estoy esperando los cebadores necesarios para la validación (alrededor de una semana), y mientras tanto quería caracterizar las transcripciones lo más completamente posible (predecir función, estructura, etc.) y estaba buscando más ideas sobre cómo hacerlo. He leído varios artículos que realizan análisis in silico y he realizado muchos de sus métodos y estaba buscando algunos más.

Respuestas (2)

Parece que ha considerado la mayoría de las alternativas obvias (y gracias por aclarar la pregunta). Supongo que la primera pregunta en una transcripción empalmada alternativamente con un intrón retenido es si se mantiene el marco de lectura abierto de la proteína. Si hay un codón de terminación que ahora se convierte en marco debido al intrón, entonces la proteína normalmente se truncaría. El ARNm también podría ser objeto de degradación debido a la vía de descomposición mediada por tonterías (es decir, por la introducción de un codón de parada temprano).

Si la transcripción empalmada alternativamente carece de ORF significativos, o si hay un ORF pero no un codón de inicio de traducción adecuado, entonces ha ingresado al reino de los ARN no codificantes, de los cuales hay dos categorías sueltas, microARN (hay varias clases) o ARN largos no codificantes. la mayoría de los miARN tienen motivos de secuencia reconocibles, pueden estar contenidos en mir-Base y pueden ser complementarios (en parte) a un objetivo regulador en otra parte del genoma. Los lncRNA están menos definidos. Quizás el mejor criterio son las transcripciones que son lo suficientemente estables para ser detectadas, pero que carecen de características de codificación de proteínas notables. Ni siquiera creo que haya un consenso sobre la longitud mínima de una transcripción para ser considerado un lncRNA.

¿En qué tipo de bases de datos has buscado? Por ejemplo, el antiguo dbEST contiene todo tipo de lecturas cortas de ADNc de todo el planeta, que datan de 1992 (más o menos). La conservación evolutiva de los exones y los sitios de empalme, o los marcos de lectura, pueden usarse para respaldar la hipótesis de que una región transcrita tiene una función biológica.

Para una expedición de pesca realmente profunda, puede usar tblastn, etc. para tomar un potencial ORF traducido y buscar los 6 marcos de lectura traducidos conceptualmente de todas las secuencias en una base de datos; lleva más tiempo y puede haber muchas coincidencias falsas que tenga. para buscar, pero si está estudiando algo que nunca ha sido anotado, podría valer la pena considerarlo.

RE: ARN plegable (estructura secundaria) cada secuencia se puede plegar en algún tipo de estructura (pruébalo y verás), pero los bucles compactos estructuralmente conservados generalmente caen en una pequeña clase de familias seleccionadas (como GNRY). Los tallos son fáciles de encontrar, pero si el bucle monocatenario es enorme, ¿cuál es la probabilidad de que esa estructura se pliegue en tiempo real?

RE: TFBS no me queda nada claro a qué te refieres con esto. Los factores de transcripción se unen a dsDNA, no a ssRNA. Hay familias de dominios de proteínas que se unen al ARN, pero normalmente no con tal especificidad de secuencia. Entonces, a menos que esta transcripción empalmada alternativamente se transcriba desde algún tipo de promotor alternativo, no estoy seguro de dónde buscaría TFBS. Es cierto que algunos intrones grandes pueden contener regiones reguladoras para el gen en su conjunto (cf. el potenciador de cadena pesada de inmunoglobulina se almacena convenientemente en un intrón), pero no me queda claro si eso tendría un efecto cuando se transcribe en ARN.

Me gusta su idea de que un intrón retenido ahora podría contener un sitio de unión para un miARN regulador, pero si entiendo la teoría, esto conduciría a la degradación de la transcripción, por lo que sería más difícil de detectar.

¡Gracias! Una vez más, creo que no he compartido toda la información necesaria; en algunas de las transcripciones, la especiación alternativa genera un 5' UTR alternativo, en el que busco TFBS (estos 5' UTR alternativos parecen ser intrones retenidos). La idea de miARN proviene de que estas transcripciones en realidad se expresan de manera diferencial en el fenotipo de la enfermedad que estoy analizando, por lo que estaba investigando los sitios de unión de miARN introducidos como una posible razón. El análisis ORF es interesante: no había considerado el significado detrás de la falta de orfs dentro del intrón retenido. ¡Gracias por tu tiempo!

Algunas sugerencias.

Para identificar la función, haga una búsqueda de homología. Hay poca anotación funcional de lncRNAs. Por lo tanto, la información basada en la homología solo se puede obtener para las secuencias de proteínas. Así que puedes probar estos:

  • Compruebe el potencial de codificación. Encuentre ORF (quizás establezca un límite de longitud mínima). Para ser estricto, también puede verificar las secuencias de consenso de Kozak (para eucariotas) en estas nuevas transcripciones. Este programa aparentemente incluye la regla de Kozak en la predicción del codón de inicio.
  • Traduce el ARN y ejecuta psi-BLAST . Psi-BLAST es mejor que BLASTp normal para identificar homólogos distantes.
  • Puede obtener los datos GO (anotación funcional) para estos homólogos y relacionarlos con su nueva transcripción.
  • Para los lncRNA, puede encontrar si se superponen con cualquier otra transcripción conocida. Muchos lncRNA parecen tener loci superpuestos con sus genes diana (tanto sentido como antisentido).
  • Búsqueda de motivos de ARN. Este artículo informa sobre un extenso estudio hacia la identificación de diferentes motivos de ARN (sitios de unión de RBP) en humanos y Drosophila. Otros motivos interesantes incluyen motivos de formación cuádruplex y ARE .
  • Si tiene la secuencia del genoma, puede asignar sus transcripciones al genoma e identificar los intrones. En realidad, su ensamblaje RNAseq, si se guía por referencia, produciría un archivo GTF. Puede extraer intrones usando el GTF. Puede buscar posibles miARN en estos intrones, en función de las predicciones de bucle de tallo. Sin embargo, es mejor tener datos de RNAseq pequeños para predecir miRNAs de manera confiable.
  • Como ya había considerado, puede verificar los sitios de unión de miARN. Para este propósito , miRanda es lo mejor para transcripciones nuevas (TargetScan es un fastidio). También puede usar RNAhybrid y obtener un consenso de los resultados de miRanda y RNAhybrid.
  • Puede realizar otros tipos de análisis basándose únicamente en la secuencia de las transcripciones. Estos incluyen la verificación del uso de codones (para posibles ARN que codifican proteínas), la riqueza de GC (comparación con las transcripciones conocidas), etc.