Agrupación de códigos de enfermedad OMIM

Tengo ~100 conjuntos de genes, y cada conjunto incluye entre 2 y 70 genes. Me gustaría realizar un análisis de enriquecimiento en cada uno de estos conjuntos para probar si están enriquecidos para las etiquetas de enfermedades OMIM . Sin embargo, me encuentro con un problema en el que los códigos OMIM son demasiado "escasos", de modo que cada código OMIM solo aparece como máximo una vez en todos los conjuntos de genes. Por lo que puedo decir, esto hace que los códigos no sean adecuados para el análisis de enriquecimiento en este caso.

Creo que agrupar los códigos OMIM podría resolver esto, siempre que cada etiqueta de grupo aparezca varias veces en mis listas. Agrupar los códigos OMIM parece factible: por ejemplo, los códigos OMIM 601495, 613500, 613502 y 613506 se refieren a tipos de agammaglobulinemia. Podría imaginar agrupar códigos basados ​​en algo así como etiquetas de ontología de genes.

Mi pregunta: ¿existe una forma estándar de agrupar códigos OMIM?

Veo algunos documentos haciendo algo como esto, por ejemplo, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4458913/ , pero soy nuevo en el campo y no sé cómo enfoques "estándar" como estos son.

Hola y bienvenido a Biology.SE. Sin una pregunta científica clara para responder, no hay suficiente información aquí para responder la pregunta.
Gracias por hacérmelo saber. Edité mi pregunta para incluir más información. Déjame saber si puedo agregar más.
Todavía es difícil decir exactamente cómo desea agruparlos y con qué fin, por lo que proporcioné una respuesta general a continuación. ¡Espero que ayude!

Respuestas (2)

Basado en códigos de identificación OMIM

En un sentido amplio, los NIH ya han dividido las identificaciones. Si todo lo que está comprobando es el enriquecimiento del código OMIM, esta podría ser una buena resolución, ya que puede indicarle el locus cromosómico (autosómico, ligado al sexo o mitocondrial).

Cada entrada de OMIM recibe un número único de seis dígitos como se resume a continuación:

1----- (100000- ) 2----- (200000- ) Loci o fenotipos autosómicos (entradas creadas antes del 15 de mayo de 1994)

3----- (300000- ) loci o fenotipos ligados al cromosoma X

4----- (400000- ) Loci o fenotipos ligados a Y

5----- (500000- ) Loci o fenotipos mitocondriales

6----- (600000- ) Loci o fenotipos autosómicos (entradas creadas después del 15 de mayo de 1994)

Otras bases de datos como método alternativo.

Si está interesado en fenotipos específicos, es posible que deba involucrarse más.

OMIM realmente no intenta agrupar enfermedades más allá de su nomenclatura de ID, que yo sepa. Ha habido varios proyectos que se propusieron hacer esto, como el que señala la pregunta y los ejemplos a continuación. En su mayoría utilizan datos fenotípicos en combinación con información OMIM.

Dos bases de datos que pretenden solucionar esto son:

Son herramientas con vocabulario controlado para fenotipos y asociaciones a partir de códigos OMIM. Podrían ayudarlo a verificar el enriquecimiento específico de la enfermedad/fenotipo. Esto ciertamente permitiría la agrupación programática, aunque no he trabajado con ninguno antes y supongo que sería muy complicado.

¡Tu decides!

Wikipedia tiene una lista de códigos OMIM enumerados en orden alfabético si desea intentar agruparlos manualmente según el criterio que desee.


Sin su código fuente es difícil saberlo, pero tal vez el máximo de una tasa de ocurrencia podría ser un problema de código en lugar de un problema científico.

¡Muchas gracias! Eso es exactamente lo que estaba buscando. Intenté agrupar por diferentes arreglos del código OMIM numérico (incluya el uso del primer dígito), pero no creo que tenga mucho sentido para mi aplicación. Veré otras bases de datos y/o probaré una solución personalizada.

Hay un enfoque del documento " Enrichr: herramienta de análisis de enriquecimiento de listas de genes HTML5 interactivo y colaborativo ":

La biblioteca de conjuntos de genes OMIM se creó directamente a partir del mapa mórbido OMIM del NCBI. Eliminamos enfermedades con solo unos pocos genes y fusionamos enfermedades con nombres similares porque es probable que estén compuestas por pocos subtipos de la misma enfermedad. Además, dado que la mayoría de las enfermedades tienen solo unos pocos genes, utilizamos nuestra herramienta, Genes2Networks, para crear la biblioteca ampliada de conjuntos de genes de OMIM. Ingresamos los genes de la enfermedad como la lista de semillas y ampliamos la lista identificando proteínas que interactúan directamente con al menos dos de los productos del gen de la enfermedad; en otras palabras, buscamos rutas que conecten dos productos de genes de enfermedades con una proteína intermedia, lo que da como resultado una subred que conecta los genes de enfermedades con proteínas/genes adicionales. Cada subred para cada enfermedad se convirtió en un conjunto de genes.

Enrichr tiene dos bibliotecas OMIM en las categorías de Medicamentos/Enfermedades. Además, cuenta con la biblioteca de ontologías de fenotipos humanos y las bibliotecas de fenotipos de mamíferos MGI .