Herramienta para convertir documentación HTML en línea a EPUB desde la línea de comandos

Tengo un montón de páginas web HTML entrelazadas que quiero convertir al formato EPUB.

Por ejemplo, la página de índice está en

http://example.com/documentation/index/index.html

Mientras que los capítulos vinculados desde las páginas de índice están en

http://example.com/documentation/chapters/*

También algunas imágenes y archivos de formato están en

http://example.com/css/*
http://example.com/img/*

¿Existe una herramienta para descargar y convertir recursivamente la documentación, pasando esas restricciones específicas, al formato epub?

Puedo descargar las páginas con httrack así:

httrack http://example.com/documentation/index/index.html +http://example.com/documentation/index/* +http://example.com/documentation/chapters/* +http://example.com/css/* +http://example.com/img/*

… y convertir las páginas HTML a XHTML usando tidy-html5

tidy -asxhtml -numeric < index.html > index.xhml

pero todavía no he encontrado una herramienta para convertir todo el árbol en EPUB a la vez.

Además, probé Calibre una vez, pero la interfaz de usuario no es amigable, así que realmente no traté de entender esa herramienta. Si tengo que aprender la interfaz de usuario de Calibre, prefiero escribir un script bash para hacer el trabajo.

Calibre también tiene una interfaz de línea de comandos. Raramente uso la GUI en absoluto. Consulte aquí los parámetros de la ebook-convertCLI . Y sí, en mi caso, generalmente es un script Bash el que hace el trabajo: uso un esqueleto con "marcadores de posición" (variables) para los detalles de la fuente :)

Respuestas (1)

Si bien no siempre brinda resultados perfectos, puede usar pandoc para descargar html de la web y generar un epub de una sola vez; también se puede descargar e incrustar automáticamente.

  • Línea de comando -
  • ¿Las descargas son directas desde la web? -
  • Crear e-pub - y muchos otros
  • Gratis, gratis y de código abierto
  • Multiplataforma incluyendo OS-X