Actualmente tengo dos conjuntos de datos de expresión génica. El primero es un marco de datos de genes identificados por números de CG de identificación de anotación (por ejemplo, "CG10005") en una columna y una variable numérica de interés asociada con cada uno de esos genes en la otra (la parte importante es que los genes están identificados por el número de GC). El segundo conjunto de datos es este estudio de múltiples especies donde los genes se identifican mediante ID de "GLEANR" como este: "dsim_GLEANR_10060".
Me gustaría extraer todos los valores de este estudio para los datos de D.melanogaster y D.simulans, luego vincularlos a los ID de anotación en el primer conjunto de datos (para conectar mi variable de interés con el sesgo sexual en la expresión de cada especie ). El problema que tengo es conectar los genes ortólogos dentro del segundo estudio entre sí y luego conectarlos a los identificadores de CG en el primer estudio.
¿Alguien tiene alguna sugerencia sobre los recursos que se pueden usar para conectar todo esto?
Esta es la página de FlyBase para el gen de ejemplo: Dsim\GD10095 . Allí, tiene una sección "ortólogos", que se vincula a OrthoDB . Entonces, mi sugerencia es: busque la lista de sinónimos para D. simulans en FlyBase ( ¿quizás aquí? ), Descargue la sección Drosophila de OrthoDB y finalmente encuentre los ortólogos 1: 1.
También puede usar biomart para este propósito.
Haga clic en la pestaña "Convertidor de ID" en la sección "Herramientas" (a la izquierda).
rg255
Michael Kuhn
rg255