Combinación de datos de expresión génica de dos especies

Actualmente tengo dos conjuntos de datos de expresión génica. El primero es un marco de datos de genes identificados por números de CG de identificación de anotación (por ejemplo, "CG10005") en una columna y una variable numérica de interés asociada con cada uno de esos genes en la otra (la parte importante es que los genes están identificados por el número de GC). El segundo conjunto de datos es este estudio de múltiples especies donde los genes se identifican mediante ID de "GLEANR" como este: "dsim_GLEANR_10060".

Me gustaría extraer todos los valores de este estudio para los datos de D.melanogaster y D.simulans, luego vincularlos a los ID de anotación en el primer conjunto de datos (para conectar mi variable de interés con el sesgo sexual en la expresión de cada especie ). El problema que tengo es conectar los genes ortólogos dentro del segundo estudio entre sí y luego conectarlos a los identificadores de CG en el primer estudio.

¿Alguien tiene alguna sugerencia sobre los recursos que se pueden usar para conectar todo esto?

Respuestas (2)

Esta es la página de FlyBase para el gen de ejemplo: Dsim\GD10095 . Allí, tiene una sección "ortólogos", que se vincula a OrthoDB . Entonces, mi sugerencia es: busque la lista de sinónimos para D. simulans en FlyBase ( ¿quizás aquí? ), Descargue la sección Drosophila de OrthoDB y finalmente encuentre los ortólogos 1: 1.

Gracias, estoy mirando esto ahora. Asumo que cada gen tiene un FBgn único y sus ortólogos están identificados por ODB6_OG_ID (?) y las especies identificadas por DROME, DROSI, DROSE... tomando solo esas tres variables puedo crear un marco de datos de cada ODB6_OG_ID en la primera columna y columnas para cada especie dando su ID FBgn ortólogo para cada especie de interés? Pero, ¿cómo "Encuentro los ortólogos 1: 1"?
A veces, tiene una duplicación de genes específica de la cepa, que probablemente desee excluir para simplificar las cosas. Por lo tanto, puede verificar para cada especie si hay más de un gen asociado con un ODB6_OG_ID y eliminarlos.
Conseguí que todo funcionara después de una buena lucha a la antigua con R hoy. ¡Muchas gracias por la ayuda!

También puede usar biomart para este propósito.

Haga clic en la pestaña "Convertidor de ID" en la sección "Herramientas" (a la izquierda).