¿Qué tan válidos son los términos GO (Ontología Genética)?

Estoy buscando artículos que cuantifiquen la validez de ontologías como GO.

Soy relativamente nuevo en el uso de términos de anotación y, a menudo, escucho cosas como "la anotación es desordenada" y "GO es bueno pero no es perfecto". Así que me gustaría encontrar documentos que den números para cuán desordenados.

Estoy buscando respuestas de cualquier experto que tenga una idea de la "calidad" de los términos GO (como quiera cuantificarlo). Por ejemplo, ¿qué fracción de términos son simplemente incorrectos? Las partes más computacionales de mí quieren resumir GO (u otras ontologías) con algunas estadísticas de validación descriptivas. por ejemplo, "los términos GO tienen una precisión del 80 % y un R^2 de 0,6".

Me gustaría ver algunos ejemplos más similares a este documento que muestren que una buena fracción de la ontología GO se puede reconstruir desde cero a partir de datos independientes. Esa parece una forma de validar la calidad GO. Incluyen esta línea sobre la falta de validación de GO en la literatura general: "... los problemas [con consistencia y sesgo] son ​​difíciles de evaluar debido a la falta de un estándar de oro definitivo para la validación rigurosa de GO".

¿Para qué planeaste usar la anotación GO? genes o proteínas (¿tal vez enzimas?)
@RickBeeloo Los genes o las proteínas serían buenos. Aunque, en realidad, sería interesante cualquier intento de cuantificar el sesgo o la precisión de los términos de anotación.

Respuestas (1)

Hay bastantes artículos ( 1 , 2 , etc.) que han investigado esto, creo que este artículo hizo un gran trabajo para dar una representación visual de la especificidad, confiabilidad y cobertura:

ingrese la descripción de la imagen aquí


también este artículo notó lo siguiente:

En comparación con las anotaciones electrónicas, no sorprende que las anotaciones seleccionadas tengan una cobertura promedio considerablemente más baja (Fig. 8, líneas verticales). De hecho, el principal atractivo de las anotaciones electrónicas es precisamente que escalan de manera eficiente a grandes cantidades de datos. Pero en términos de confiabilidad, y contrariamente a las creencias actuales, las anotaciones seleccionadas que usan evidencia distinta a los experimentos de la literatura primaria no obtienen mejores resultados que las anotaciones electrónicas (Fig. 8, líneas horizontales, Fig. S9 en el Texto S1). De hecho, observamos una mayor confiabilidad para las anotaciones electrónicas que para las anotaciones seleccionadas (0,52 frente a 0,33). la figura golpe es la figura 8 del artículo ingrese la descripción de la imagen aquí

No sé si solo tiene curiosidad sobre la confiabilidad de GO o si está buscando otro tipo de método de anotación jerárquica, pero, por ejemplo, para las enzimas también hay números EC . Puedo continuar citando el artículo, pero sugeriría leer el artículo del que usé las figuras ( Quality of Computationally Inferred Gene Ontology Annotations ). En segundo lugar, este artículo es más reciente y se hizo algo similar aquí. Entre otras cosas, también compararon la anotación computacional de 2008 con la anotación manual de 2010 para el mismo conjunto de términos GO:

Cita en bloque

Por lo tanto, también recomendaría leer El qué, dónde, cómo y por qué de la ontología genética: un manual básico para bioinformáticos . Este artículo y el artículo mencionado anteriormente le darán una buena idea en términos de GO.

No hay problema, creo que los artículos te lo aclararán.