Herramienta para guardar páginas web en formato XML

Question

Herramienta para guardar páginas web en formato XML

xml
html
desconectado
Software
convertidor de documentos

rana

Quiero crear una aplicación sin conexión para mostrar información sobre medicamentos. La información que necesito usar ya está disponible en wikipedia . Pero en esta página, hay tantas subpáginas (más de 1000) para guardar y, en mi opinión, hacer esta tarea manualmente no es factible.

También tenga en cuenta que debo guardar cada medicamento en un elemento formateado en XML (con cierto esquema). Ahora estoy buscando una herramienta para facilitar esta tarea. ¿Existe tal herramienta o no?

Mis requisitos

Obtiene una(s) página(s) HTML y crea un documento XML
Preferiblemente gratis
Basado en Windows o Linux

unor

(a) Entonces, la herramienta no tiene que descargar/seleccionar todos los artículos de Wikipedia sobre drogas, ¿correcto? (b) ¿ Qué esquema XML debe usarse o debe usar los elementos HTML con el espacio de nombres HTML? (c) ¿Debería funcionar la herramienta con una lista de URL, con una sola URL, con un archivo local, con entrada de texto completo?

rana

@unor (a) Si lo hace, es mejor (b) Un esquema XSD simple, creo que esto no importa (c) Trabajar con una lista de URL es mejor, pero también es aceptable admitir archivos y otros documentos (d) Gracias por su respuesta

Respuestas (2)

Herramienta para guardar páginas web en formato XML

(a) Entonces, la herramienta no tiene que descargar/seleccionar todos los artículos de Wikipedia sobre drogas, ¿correcto? (b) ¿ Qué esquema XML debe usarse o debe usar los elementos HTML con el espacio de nombres HTML? (c) ¿Debería funcionar la herramienta con una lista de URL, con una sola URL, con un archivo local, con entrada de texto completo?
@unor (a) Si lo hace, es mejor (b) Un esquema XSD simple, creo que esto no importa (c) Trabajar con una lista de URL es mejor, pero también es aceptable admitir archivos y otros documentos (d) Gracias por su respuesta

doctor marrón · Answer 1

Dudo que encuentre una herramienta lista para usar para este propósito, en mi humilde opinión, este es un requisito demasiado específico. Pero hay muchos marcos para cada lenguaje de programación principal que lo ayudan a implementar un "raspador" o "rastreador" web por sí mismo.

Por ejemplo, buscar en Google "rastreador web python" apareció de inmediato http://scrapy.org/ , buscando "rastreador web java" dio un enlace a crawler4j . Con un marco de este tipo, para alguien con más de 4 000 puntos en stackoverflow, debería ser cuestión de unos días como máximo implementar lo que está buscando.

Gracias querido Doc Brown y @unor, sus respuestas son realmente útiles y valiosas, pero desafortunadamente no puedo aceptarlas a ambas. ¡En mi opinión, experimentar algo de programación para esta tarea podría ser más agradable! así que acepté esta respuesta, sin embargo, realmente aprecio la respuesta de unor
@abforce: tal vez pueda combinar las dos sugerencias: escriba un rastreador (usando uno de los marcos sugeridos), que utiliza la función Especial: Exportar.

unor · Answer 2

No es una herramienta general para este trabajo, sino una solución que convierte artículos de Wikipedia en documentos XML:

Vaya a http://en.wikipedia.org/wiki/Special:Export
Ingrese el(los) nombre(s) del artículo
Haga clic en "Exportar"

(Al ingresar un nombre de categoría en el campo "Agregar páginas de la categoría", puede exportar automáticamente todas las páginas que pertenecen a esta categoría).

En http://www.mediawiki.org/wiki/Manual:Parameters_to_Special:Export puede leer más características de la función de exportación que se pueden controlar manipulando la URL.

El contenido real del artículo (incluido en el elemento XML text) se exporta en la sintaxis de MediaWiki. En http://www.mediawiki.org/wiki/Alternative_parsers puede encontrar varias herramientas que convierten este marcado en otra cosa, por ejemplo, XML.

Por ejemplo, Pandoc puede importar sintaxis de MediaWiki y exportar a XHTML (que es XML).

Herramienta para guardar páginas web en formato XML

rana

unor

rana

Respuestas (2)

doctor marrón

rana

doctor marrón

unor

¿Existe un software gratuito de conversión de PDF a HTML?

Cree un sitio web con hipervínculos a partir de un archivo EPUB

Herramienta para convertir entre diferentes formatos de texto sin formato

Herramienta para convertir HTML4 a HTML5+CSS

¿Existe alguna aplicación/herramienta para convertir graphML a Dia o viceversa?

Equivalente de MkDocs escrito en Perl para convertir árboles de Markdown o POD a HTML con índice en cada archivo

Software de currículum vitae académico con salida PDF y HTML

Software para convertir archivos MHT (MHTML) a navegador y plataforma, formato de archivo único neutral

Herramienta para convertir documentación HTML en línea a EPUB desde la línea de comandos

Convertidor de página web a PDF