¿Cómo sabe la Búsqueda de Google qué artículo ha citado?

Elige un artículo al azar usando la Búsqueda de Google, por ejemplo

ingrese la descripción de la imagen aquí

Haga clic en el enlace Citado por y verá:

  1. una lista de escritos, que van desde tesis, trabajos de conferencias, trabajos de arXiv, etc. etc....

  2. publicado en una amplia gama de plataformas como academia.edu, arXiv, semanticscholar.org, ieee, nowpublishers...

  3. usando una variedad de estilos de cita

Me parece que si se tratara de un proceso automatizado, entonces Google tendría que realizar un seguimiento de cada artículo nuevo que se haya publicado y encontrar la lista de la sección de citas en cada artículo, encontrar un artículo en particular que haya sido citado, actualizar la página de citas de ese artículo en particular y repita para todas las citas de ese artículo.

Pero entonces tendría que obtener acceso a esos documentos en primer lugar y algunos de ellos tienen suscripciones como las de IEEE. Tendría que ignorar los estilos de citación pero realizar un seguimiento de la versión correcta de cualquier documento que haya sido citado (preprint, etc.).

¿Es realmente así como Google realiza un seguimiento de las citas en el enlace Citado por? ¿Alguien que tenga conocimientos internos sobre publicación puede aclararme cómo la Búsqueda de Google parece ser capaz de conocer las citas entre artículos?

Sí, por supuesto es un proceso automatizado. No tengo conocimiento de primera mano, pero me han dicho que los editores dan acceso a Google a datos bibliográficos (y es difícil ver cómo Scholar podría tener esta información de otra manera). La mayoría de los editores hacen que las citas estén disponibles en su sitio además de la bibliografía en el PDF, por lo que Google podría extraerlas del sitio web del editor o del PDF.
Dada la cantidad de dinero que tiene Google, supongo que una suscripción a IEEE es el menor de sus problemas.
es difícil ver cómo Scholar podría tener esta información de otra manera : podrían analizarla de las bibliografías de otros artículos, al igual que los humanos.
@FedericoPoloni Sí, el punto es, ¿hay una manera mucho más fácil de realizar este proceso? Por ejemplo, IEEE carga los documentos directamente en una base de datos propiedad de Google.

Respuestas (1)

Me parece que si se tratara de un proceso automatizado, entonces Google tendría que realizar un seguimiento de cada artículo nuevo que se haya publicado.

Sí, así es exactamente como lo hace Google. Ellos rastrean la web de todos modos, y si encuentran algo que parece un trabajo académico, lo agregan a su índice especial de Google Scholar. Extraer citas de archivos PDF no es técnicamente fácil, pero no es una gran barrera si tiene la mano de obra y años de experiencia en la recuperación de información como lo hace Google.

En cuanto a cómo obtienen acceso a IEEE, etc., hasta donde yo sé, esto no se revela. Tal vez solo estén pagando por el acceso institucional como todos los demás, tal vez obtengan acceso gratuito de los proveedores de contenido para que puedan construir su índice.