Conversión automática de secuencia de páginas web a pdf [duplicar]

Sucede mucho que quiero enviar una secuencia de páginas HTML desde un sitio web, todas juntas en un archivo único para que pueda leerlas en mi e-reader.

Por ejemplo , este recurso en línea se puede convertir en una secuencia de archivos pdf .

No tengo ninguna limitación en el sistema operativo (Linux o Windows) y tanto las soluciones pagas como las gratuitas están bien. Una solución en línea (un sitio web que convierte cualquier URL que le pases) es la mejor.

Calibre hace algo así, usando un concepto llamado "Recetas". No hay necesidad de LaTeX con eso. Mientras uso Calibre para mis libros electrónicos (EPUB/MOBI), nunca lo he usado para agrupar un sitio web como PDF, por lo que no puedo decir qué tan bien funciona (de ahí un comentario y no una respuesta).
Mi pregunta es ¿cómo hicieron el pdf que puse como muestra dentro de la pregunta? Lo que me gusta es que cuando haces clic en un enlace, salta a la parte correspondiente en PDF y no abre el navegador.
Cualquier buen convertidor debería hacer eso. No puedo decirte sobre el "cómo" (que iría demasiado lejos para este sitio, ya que es más bien una cuestión de desarrollo).
¿La parte "cómo" es algo similar a este ejemplo escrito en python? Inspecciona el código html de la página inicial, lo descarga, encuentra el enlace para la página siguiente y realiza el paso anterior hasta que ya no pueda descargar la página.

Respuestas (1)

Pandoc puede tomar una o más páginas web y convertirlas a varios formatos, incluidos EPUB y pdf, pero para pdf también necesitará un procesador de látex como MiKTeX .

Ejemplos:

1: Descarga el manual de make y conviértelo a pdf:

pandoc -s -r html http://www.gnu.org/software/make/ -o make_manual.pdf

2: Descargue los manuales de make y awk y combínelos en un epub:

pandoc -s -r html http://www.gnu.org/software/make/ http://www.gnu.org/software/gawk/manual/gawk.html -o make_awk_man.epub

pandoc es:

  • Gratis, gratis y de código abierto
  • Multiplataforma Linux, OS-X y Windows
  • Capaz de leer, desde cualquier fuente accesible, incluso en línea :
    • commonmark, docbook, docx, epub, eglefino, html, su propio json, látex,
    • rebajas, rebajas_github, rebajas_mmd, rebajas_phpextra,
    • markdown_strict, mediawiki, nativo, odt, opml, org, primero, t2t,
    • textil, twiki
  • Capaz de escribir:
    • asciidoc, beamer, contexto, docbook, docx, dokuwiki,
    • dzslides, epub, epub3, fb2, eglefino, html, html5, icml, json,
    • látex, hombre, descuento, markdown_github, markdown_mmd,
    • markdown_phpextra, markdown_strict, mediawiki, nativo, impar,
    • opendocument, opml, org, pdf con procesador latex , simple, unlockjs, rst, rtf, s5,
    • slideous, resbaladizo, texinfo, textil
  • No necesita Word instalado para generar docx, etc.

Descubrirá que en algún momento la visualización y el diseño de salida no coinciden exactamente con el original, especialmente si el original usa fuentes inusuales que no están instaladas en su sistema y que solo se muestran en su navegador.

PELIGRO Una vez que comienzas a usar pandoc, es difícil parar.

Gracias Steve, pandoc parece un programa interesante. ¿Es posible dar una secuencia pandoc de páginas html (digamos un archivo txt que contiene una lista de páginas html) y convertirlas todas en un pdf único? ¿O tal vez debería convertir cada pdf por separado y combinarlos todos al final? Otra pregunta: lo que me gusta del pdf que envié dentro de mi pregunta es que todos los hipervínculos se convierten en hipervínculos que funcionan dentro del pdf, de modo que si hace clic en el enlace, saltará a la parte correspondiente en pdf. ¿Pandoc puede hacer esto?
Sí, puede darle una secuencia de archivos html y puede empaquetar todos los archivos en un pdf o epub y se conservan los enlaces internos y externos, aunque no lo he probado con múltiples entradas; puede canalizar un archivo con una lista de fuentes. pero no creo que pueda leer de un archivo de lista de entrada de forma predeterminada. NB, no puede convertir archivos PDF leídos, por lo que si desea ensamblar más tarde, deberá usar Markdown o algo así en lugar de PDF como en el intermedio.