¿Cómo encuentra Google Scholar trabajos en sitios web personales?

Recientemente, agregué un nuevo artículo a mi sitio web personal y apareció en Google Scholar un par de días después. En mi sitio web, todo lo que hice fue escribir el nombre del artículo, junto con los autores y el nombre de la conferencia, y luego proporcioné un enlace al PDF. Esta información por sí sola de alguna manera le informó a Google Scholar que el texto que agregué era en realidad un artículo nuevo. No hay otra información sobre este documento en la web, así que sé que Google solo usó mi sitio web para actualizar Google Scholar.

Entonces, lo que me pregunto es cómo sabe Google qué es un documento y qué es solo un texto arbitrario en mi sitio web. Por ejemplo, si solo hubiera escrito el nombre del artículo, sin los autores y la conferencia, y sin el PDF, ¿aún así se habría detectado?

En mi sitio web, el artículo aparece en una página web llamada "Publicaciones", en una lista con muchos otros artículos, pero esto es bastante específico para el diseño de mi propio sitio web. Me pregunto si tiene algo que ver con el PDF al que proporcioné un enlace. Quizás inspeccionó el PDF y decidió que era un papel, y si no hubiera agregado el PDF, no lo detectaría como un papel. Pero, de nuevo, el formato HTML no indica necesariamente con qué texto está asociado el PDF, incluso si es obvio para una persona al inspeccionar la página web. O tal vez Google Scholar solo tiene una búsqueda diseñada a mano que busca instancias de HTML donde está el nombre de una conferencia conocida, autores conocidos y un PDF cercano.

Tienen un sótano enorme lleno de duendecitos navegando por la red como locos.
Presumiblemente, la conferencia tiene una página y Google sabe que la conferencia (o revista) publica artículos. Si eso coincide con autores que conoce, tal vez sea suficiente.
Consulte la página de ayuda de Google Scholar sobre inclusión . PD: no tiene nada que ver con tenerlo en una "conferencia conocida": GS también indexa material inédito. Básicamente busca archivos PDF que tengan un título, una lista de autores y una sección de referencias. Sigue intentando indexar mis diapositivas (de enseñanza) que se publican en mi sitio web, por ejemplo, porque tienen un título, un autor y una lista de referencias al final.
Creo que esto es solo un reflejo de lo increíble (y aterrador) que es Google: pasó a rastrear su sitio en los últimos días y lo encontró a través del vudú (o elfos) que usan en estos días.
@ff524: Hace unos años (3 o 4) me di cuenta de que si buscaba mi nombre en Google Scholar, obtenía una gran cantidad (más de 20) de mis folletos de enseñanza (y pruebas y cuestionarios cortos) que había archivado en las publicaciones de Math Forum cuando podía hacer esto (parece que lo eliminaron hace aproximadamente un año). No he buscado esto en Google por un tiempo, pero al hacerlo ahora solo veo dos elementos de este tipo ("Ejemplos de grupos exóticos" y this , y algunos otros que no sé qué son (por ejemplo, "MATEMÁTICAS: EL UNIVERSAL").

Respuestas (1)

(Advertencia: se avecinan simplificaciones excesivas; si alguien que está investigando en Recuperación de información quiere agregar detalles técnicos, ¡sea mi invitado!)

Fundamentalmente, Google encuentra todos los recursos (páginas HTML, imágenes y documentos) en la web de la misma manera: revisa periódicamente todos y cada uno de los recursos que conoce, (re)indexa y, para el contenido HTML, sigue todos enlaces a otros recursos (enjuagar y repetir). Es probable que su página web esté vinculada desde el sitio web de su departamento, que Google definitivamente conoce, por lo tanto, su página web también está en la base de datos de Google. Su página web enlaza con su artículo, por lo tanto, Google también conocerá su artículo la próxima vez que el rastreador revise su página. El tiempo que llevará esto no está definido, pero Google tiene muchos rastreadores y es bastante inteligente sobre cuándo volver a verificar ciertos tipos de páginas, por lo que normalmente no toma mucho tiempo.

Ahora, Google tiene heurísticas específicas para tratar diferentes tipos de recursos de manera diferente. Por ejemplo, si se agrega una página HTML a la base de datos, se extraerán palabras clave, se seguirán enlaces, etc., mientras que una imagen conducirá a acciones completamente diferentes. Los artículos científicos no son diferentes en ese sentido: tan pronto como Google encuentra un archivo PDF o Word que "parece" un artículo científico para el proceso automatizado, Google generará metadatos del artículo (título, autores, lugar, palabras clave, ...) analizando el texto del PDF tan bien como sea posible y agregándolo a su base de datos especial de Google Scholar, y aquí es cuando el trabajo aparece en su perfil.

El propio sitio web de Google entra en bastante detalle sobre este proceso. También tiene instrucciones para los autores que buscan que Scholar indexe sus artículos.

Me imagino que Google no solo extrae los metadatos del PDF, sino que analiza el contenido real del PDF.
@Ric Sí, me expresé bastante mal.