Mi algoritmo aprende la interacción regulatoria entre genes utilizando el enfoque de red bayesiana a partir de datos de expresión génica. Después de que el algoritmo haya convergido en una red de genes que interactúan, ¿cómo validar que las interacciones sean correctas? He usado el conjunto de datos de cáncer de pulmón de NCBI GEO con ID: GDS2771. Además, ¿cómo obtener el conjunto de genes responsables de una enfermedad (en este caso, cáncer de pulmón) y cómo cuantificar sus niveles de expresión como sobreexpresados o subexpresados?
Puede validar las interacciones eliminando (KD) o sobreexpresando (OE) un gen y verificando el cambio en los niveles de expresión de los nodos posteriores. Puede hacer esto con un alto rendimiento utilizando microarrays o RNAseq. Para proteínas puedes hacer un LC-MS. Sin embargo, este método no puede ayudarte en:
Los bucles son complicados, pero el muestreo en múltiples intervalos de tiempo puede permitirle saber si existen oscilaciones o no. Para la mayoría de los casos habituales, este enfoque funciona.
Por lo general, esto es seguido por otra ronda de validación utilizando un rendimiento relativamente bajo pero una técnica sensible como
En algunos casos, es posible que deba realizar ChIP-seq para averiguar si un gen tiene sitios de unión para un TF en su promotor/potenciador. También puede usar predicciones para sitios de unión de TF. Para encontrar la regulación por miRNAs puedes ver este post.
Para encontrar dinámicas complejas como pulsos y oscilaciones, debe recopilar datos de curso de tiempo.
¿Cómo cuantificar sus niveles de expresión como sobreexpresados o subexpresados?
Para eso, primero debe definir su control (regulado hacia arriba/abajo, ¿qué?). Una vez hecho esto, puede comparar la expresión y usar las pruebas estadísticas correctas para verificar la regulación diferencial. Si solo tiene una muestra, la mayoría de las pruebas no funcionarán. Para RNAseq, se usan algoritmos EM que usan un modelo bayesiano para obtener probabilidades y valor p (he usado gemelos y eXpress). Luego se puede realizar una corrección FDR al comparar la prueba con el control. No estoy muy seguro acerca de los algoritmos utilizados para comparar datos de LC-MS para proteínas.
rg255
WYSIWYG
Aparajita
WYSIWYG