Tengo un montón de páginas web HTML entrelazadas que quiero convertir al formato EPUB.
Por ejemplo, la página de índice está en
http://example.com/documentation/index/index.html
Mientras que los capítulos vinculados desde las páginas de índice están en
http://example.com/documentation/chapters/*
También algunas imágenes y archivos de formato están en
http://example.com/css/*
http://example.com/img/*
¿Existe una herramienta para descargar y convertir recursivamente la documentación, pasando esas restricciones específicas, al formato epub?
Puedo descargar las páginas con httrack así:
httrack http://example.com/documentation/index/index.html +http://example.com/documentation/index/* +http://example.com/documentation/chapters/* +http://example.com/css/* +http://example.com/img/*
… y convertir las páginas HTML a XHTML usando tidy-html5
tidy -asxhtml -numeric < index.html > index.xhml
pero todavía no he encontrado una herramienta para convertir todo el árbol en EPUB a la vez.
Además, probé Calibre una vez, pero la interfaz de usuario no es amigable, así que realmente no traté de entender esa herramienta. Si tengo que aprender la interfaz de usuario de Calibre, prefiero escribir un script bash para hacer el trabajo.
Si bien no siempre brinda resultados perfectos, puede usar pandoc para descargar html de la web y generar un epub de una sola vez; también se puede descargar e incrustar automáticamente.
izzy
ebook-convert
CLI . Y sí, en mi caso, generalmente es un script Bash el que hace el trabajo: uso un esqueleto con "marcadores de posición" (variables) para los detalles de la fuente :)