¿Puede obtener datos estadísticos sobre envíos de trabajos de investigación y publicaciones?

Para un proyecto de clase sobre aprendizaje automático, estoy considerando crear un conjunto de predictores donde el conjunto de funciones incluye información sobre el tema, palabras clave en el título, los autores, la fecha, etc., y los resultados tienen la probabilidad de ser publicados, esperados. impacto de citas, etc.

Me gustaría elegir una sola revista como Nature , por ejemplo. ¿Será posible recopilar los datos necesarios para lograr esto? ¿Alguien tiene consejos sobre dónde puedo encontrar datos estadísticos sobre revistas de investigación en particular?

¿Sería suficiente capacitarse contra los trabajos aceptados sin incluir los trabajos enviados?

Respuestas (2)

En mi humilde opinión, es poco probable que esto vuele. Algunas revistas pueden brindarle estadísticas sobre el número de publicaciones enviadas y aceptadas. Pero el envío a una revista suele ser confidencial y, como autor, me molestaría mucho que Nature revelara esta información a otra persona.

Donde podría hacer un análisis similar es en un sitio como arXiv.org. Se usa mucho en física en otros campos como un servicio de preimpresión, y generalmente hay notas donde y cuando se acepta un envío a una revista. También se incluyen palabras clave. La diferencia es que no todos los que se envían a Phys Rev necesariamente usan arXiv.org.

Si puede manejar solo metadatos (es decir, sin registro de publicación), arXiv es una excelente fuente de datos para comenzar. Tienen un AIP, pero lo que desea usar es la API de Open Archive Initiative, vea mi publicación (y respuesta): Obtener un volcado de metadatos arXiv . En particular, obtiene datos de publicación autoinformados (revista, DOI).

Para un conjunto de datos aún más relevante, la American Physics Society (Physical Review) tiene una ruta establecida para compartir datos: http://journals.aps.org/datasets :

[...] Las solicitudes se revisarán rápidamente y, si se aprueban, los datos estarán disponibles para su descarga después de aceptar los términos y condiciones a continuación. [...] El corpus de Physical Review Letters, Physical Review y Reviews of Modern Physics está compuesto por más de 450.000 artículos y data de 1893. [...]

1) Pares de artículos que citan: este conjunto de datos consta de pares de artículos de APS que se citan entre sí. Por ejemplo, si el artículo A cita el artículo B, habrá una entrada en el conjunto de datos que consistirá en el par de DOI para A y B. Este conjunto de datos se formateará como un archivo de valores separados por comas (CSV) que consistirá en el DOI pares, un par por línea.

2) Metadatos del artículo: este conjunto de datos consta de los metadatos básicos de todos los artículos de revistas de APS. Los metadatos proporcionados incluyen los siguientes campos: DOI, revista, volumen, edición, primera página y última página O ID del artículo y número de páginas, título, autores, afiliaciones, historial de publicación, códigos PACS, encabezado de la tabla de contenido, tipo de artículo y informacion registrada.

No sé si un proyecto de clase cuenta, pero puede valer la pena intentarlo.