Quiero crear una aplicación sin conexión para mostrar información sobre medicamentos. La información que necesito usar ya está disponible en wikipedia . Pero en esta página, hay tantas subpáginas (más de 1000) para guardar y, en mi opinión, hacer esta tarea manualmente no es factible.
También tenga en cuenta que debo guardar cada medicamento en un elemento formateado en XML (con cierto esquema). Ahora estoy buscando una herramienta para facilitar esta tarea. ¿Existe tal herramienta o no?
Mis requisitos
Dudo que encuentre una herramienta lista para usar para este propósito, en mi humilde opinión, este es un requisito demasiado específico. Pero hay muchos marcos para cada lenguaje de programación principal que lo ayudan a implementar un "raspador" o "rastreador" web por sí mismo.
Por ejemplo, buscar en Google "rastreador web python" apareció de inmediato http://scrapy.org/ , buscando "rastreador web java" dio un enlace a crawler4j . Con un marco de este tipo, para alguien con más de 4 000 puntos en stackoverflow, debería ser cuestión de unos días como máximo implementar lo que está buscando.
No es una herramienta general para este trabajo, sino una solución que convierte artículos de Wikipedia en documentos XML:
(Al ingresar un nombre de categoría en el campo "Agregar páginas de la categoría", puede exportar automáticamente todas las páginas que pertenecen a esta categoría).
En http://www.mediawiki.org/wiki/Manual:Parameters_to_Special:Export puede leer más características de la función de exportación que se pueden controlar manipulando la URL.
El contenido real del artículo (incluido en el elemento XML text
) se exporta en la sintaxis de MediaWiki. En http://www.mediawiki.org/wiki/Alternative_parsers puede encontrar varias herramientas que convierten este marcado en otra cosa, por ejemplo, XML.
Por ejemplo, Pandoc puede importar sintaxis de MediaWiki y exportar a XHTML (que es XML).
unor
rana