¿Cómo validar las interacciones regulatorias deducidas de los datos de expresión génica?

Mi algoritmo aprende la interacción regulatoria entre genes utilizando el enfoque de red bayesiana a partir de datos de expresión génica. Después de que el algoritmo haya convergido en una red de genes que interactúan, ¿cómo validar que las interacciones sean correctas? He usado el conjunto de datos de cáncer de pulmón de NCBI GEO con ID: GDS2771. Además, ¿cómo obtener el conjunto de genes responsables de una enfermedad (en este caso, cáncer de pulmón) y cómo cuantificar sus niveles de expresión como sobreexpresados ​​o subexpresados?

esto puede necesitar más detalles del modelo que usa, por ejemplo, el modelo podría haber elegido al azar 10 genes y decir que están interactuando, aunque supongo que está haciendo algo un poco más complejo :)
Y sí, estoy de acuerdo con GriffinEvo en que primero debe asegurarse de que el algoritmo se haya utilizado correctamente, los parámetros ajustados correctamente, etc.
Algunos parámetros importantes del algoritmo son los umbrales de discretización para clasificar los valores de expresión de genes como expresados ​​por encima, por debajo o normalmente. Tampoco estoy seguro de cuáles deberían ser los valores de umbral, y el otro parámetro importante es, como mucho, ¿cuántos reguladores puede haber para un gen? ¿Alguna idea de cómo arreglar eso?
También he etiquetado tu publicación como bioinformática. Si su consulta está relacionada con la optimización del modelo, aclare eso en la pregunta.

Respuestas (1)

Puede validar las interacciones eliminando (KD) o sobreexpresando (OE) un gen y verificando el cambio en los niveles de expresión de los nodos posteriores. Puede hacer esto con un alto rendimiento utilizando microarrays o RNAseq. Para proteínas puedes hacer un LC-MS. Sin embargo, este método no puede ayudarte en:

  1. Diferenciar interacciones directas e indirectas
  2. Encontrar regulación en caso de bucles y otras interacciones no lineales en la red

Los bucles son complicados, pero el muestreo en múltiples intervalos de tiempo puede permitirle saber si existen oscilaciones o no. Para la mayoría de los casos habituales, este enfoque funciona.

Por lo general, esto es seguido por otra ronda de validación utilizando un rendimiento relativamente bajo pero una técnica sensible como

  • PCR en tiempo real (KD frente a OE)
  • Transferencias occidentales (KD frente a OE)
  • Los ensayos de reportero (KD vs OE) detectarían interacciones directas. Por ejemplo, se usa un posible promotor para un (factor de transcripción) TF (aguas arriba del gen-Y) para expresar GFP para ver si GFP responde al TF; validando así el efecto de TF en Gene-Y a través del promotor.

En algunos casos, es posible que deba realizar ChIP-seq para averiguar si un gen tiene sitios de unión para un TF en su promotor/potenciador. También puede usar predicciones para sitios de unión de TF. Para encontrar la regulación por miRNAs puedes ver este post.

Para encontrar dinámicas complejas como pulsos y oscilaciones, debe recopilar datos de curso de tiempo.

¿Cómo cuantificar sus niveles de expresión como sobreexpresados ​​o subexpresados?

Para eso, primero debe definir su control (regulado hacia arriba/abajo, ¿qué?). Una vez hecho esto, puede comparar la expresión y usar las pruebas estadísticas correctas para verificar la regulación diferencial. Si solo tiene una muestra, la mayoría de las pruebas no funcionarán. Para RNAseq, se usan algoritmos EM que usan un modelo bayesiano para obtener probabilidades y valor p (he usado gemelos y eXpress). Luego se puede realizar una corrección FDR al comparar la prueba con el control. No estoy muy seguro acerca de los algoritmos utilizados para comparar datos de LC-MS para proteínas.

bueno, no estoy haciendo ningún experimento de laboratorio húmedo, estoy usando técnicas de aprendizaje automático en la matriz de datos de expresión. Entonces, ¿cómo derribaría o sobreexpresaría el patrón de expresión de un gen? ¿Estableciendo valores bajos para derribar y valores altos para sobreexpresión y luego verificar cómo cambian las interacciones reguladoras para ese gen?
@Aparajita Dijiste "validar". Tienes que hacer experimentos de laboratorio húmedo para validar. Su modelo solo puede hacer predicciones a partir de datos determinados. Tendría que probar si predice correctamente, un experimento de control. Si no, debe actualizar los parámetros de su modelo.