Herramienta para guardar páginas web en formato XML

Quiero crear una aplicación sin conexión para mostrar información sobre medicamentos. La información que necesito usar ya está disponible en wikipedia . Pero en esta página, hay tantas subpáginas (más de 1000) para guardar y, en mi opinión, hacer esta tarea manualmente no es factible.

También tenga en cuenta que debo guardar cada medicamento en un elemento formateado en XML (con cierto esquema). Ahora estoy buscando una herramienta para facilitar esta tarea. ¿Existe tal herramienta o no?

Mis requisitos

  1. Obtiene una(s) página(s) HTML y crea un documento XML
  2. Preferiblemente gratis
  3. Basado en Windows o Linux
(a) Entonces, la herramienta no tiene que descargar/seleccionar todos los artículos de Wikipedia sobre drogas, ¿correcto? (b) ¿ Qué esquema XML debe usarse o debe usar los elementos HTML con el espacio de nombres HTML? (c) ¿Debería funcionar la herramienta con una lista de URL, con una sola URL, con un archivo local, con entrada de texto completo?
@unor (a) Si lo hace, es mejor (b) Un esquema XSD simple, creo que esto no importa (c) Trabajar con una lista de URL es mejor, pero también es aceptable admitir archivos y otros documentos (d) Gracias por su respuesta

Respuestas (2)

Dudo que encuentre una herramienta lista para usar para este propósito, en mi humilde opinión, este es un requisito demasiado específico. Pero hay muchos marcos para cada lenguaje de programación principal que lo ayudan a implementar un "raspador" o "rastreador" web por sí mismo.

Por ejemplo, buscar en Google "rastreador web python" apareció de inmediato http://scrapy.org/ , buscando "rastreador web java" dio un enlace a crawler4j . Con un marco de este tipo, para alguien con más de 4 000 puntos en stackoverflow, debería ser cuestión de unos días como máximo implementar lo que está buscando.

Gracias querido Doc Brown y @unor, sus respuestas son realmente útiles y valiosas, pero desafortunadamente no puedo aceptarlas a ambas. ¡En mi opinión, experimentar algo de programación para esta tarea podría ser más agradable! así que acepté esta respuesta, sin embargo, realmente aprecio la respuesta de unor
@abforce: tal vez pueda combinar las dos sugerencias: escriba un rastreador (usando uno de los marcos sugeridos), que utiliza la función Especial: Exportar.

No es una herramienta general para este trabajo, sino una solución que convierte artículos de Wikipedia en documentos XML:

  1. Vaya a http://en.wikipedia.org/wiki/Special:Export
  2. Ingrese el(los) nombre(s) del artículo
  3. Haga clic en "Exportar"

(Al ingresar un nombre de categoría en el campo "Agregar páginas de la categoría", puede exportar automáticamente todas las páginas que pertenecen a esta categoría).

En http://www.mediawiki.org/wiki/Manual:Parameters_to_Special:Export puede leer más características de la función de exportación que se pueden controlar manipulando la URL.

El contenido real del artículo (incluido en el elemento XML text) se exporta en la sintaxis de MediaWiki. En http://www.mediawiki.org/wiki/Alternative_parsers puede encontrar varias herramientas que convierten este marcado en otra cosa, por ejemplo, XML.

Por ejemplo, Pandoc puede importar sintaxis de MediaWiki y exportar a XHTML (que es XML).