Ayuda con los datos de la base de datos STRING

Estoy trabajando con datos descargados de la base de datos STRING (string-db.org) para interacciones proteína-proteína. Mi idea es comparar la topología de las conexiones de la misma proteína en diferentes organismos.

Sin embargo, noté que la misma proteína puede recibir diferentes identificaciones en cada organismo.

Entonces, me gustaría saber si hay alguna forma de convertir todas las ID en un solo patrón.

Gracias.

Respuestas (2)

Las proteínas evolucionan y tienen diferentes secuencias entre especies, por lo que tendrías que definir qué quieres decir con "misma proteína". Una opción sería usar una base de datos de ortología como eggNOG . (EggNOG tiene los mismos identificadores de proteínas que STRING). Entonces podrías averiguar las correspondencias 1:1 entre las proteínas.

Probablemente también desee leer sobre el trabajo de Roded Sharan , por ejemplo, Alineación global de redes de interacción proteína-proteína.

Hola @Michael, esto era exactamente lo que estaba buscando. Gracias por tu ayuda y por la sugerencia de lectura.

Si lo entiendo correctamente, ha descargado, por ejemplo, 1000 secuencias de proteínas con 1000 ID, pero hay duplicados en las secuencias, por lo que en realidad es como tener 600 secuencias únicas con 1000 ID. Si es así, debería ser bastante fácil escribir un script que crearía un conjunto de secuencias únicas con todas las ID correspondientes para que pueda elegir cuál usar.

En python, se podría hacer usando la secuencia como clave de diccionario con la ID como valor. Mientras recorre cada secuencia, verifique si la secuencia ya está en el diccionario. En caso afirmativo, agregue el nuevo ID como un valor. Finalmente obtendrías

seqs = {
'DFABIODFAFDIOAF....':['ID001', 'ID007'],
'ANOTHERUNIQUESEQUENCE':['ID50'],
...
}

entre los que debería ser fácil elegir

TBH no está seguro de la eficiencia de esto, pero ¿depende del tamaño del conjunto de datos? ¿Qué tan grande es? Solo dame un conjunto de datos de muestra y puedo escribirlo.

Hola, @Pocin, gracias por tu ayuda y por tu respuesta, pero mi problema era cómo convertir la ID de proteína utilizada en STRING a una ID de base de datos diferente (por ejemplo, Uniprot). Usando la solución proporcionada por Michael, podré hacer esta correspondencia.