Aplicación para recopilar capítulos de un solo libro de fanfiction.net

Se necesita: software que pueda tomar una historia publicada en varios capítulos en fanfiction.net y luego convertirla en un solo texto/libro.

Gratis

Tecnología deseada: irrelevante (webapp, Windows, Linux, código Perl/Python/Java, etc... son todos aceptables, aunque Windows o webapp son una preferencia débil)

Salida: no importa. Archivo TXT o archivo HTML o epub o cualquier otra cosa legible por texto estándar o lector de libros electrónicos. ( El material de origen es texto sin formato ).

Lo sentimos, la etiqueta correcta debe estar relacionada con el raspado de sitios web. Si alguien edita eso, gracias.

Respuestas (2)

Respuesta más simple: Pandoc

pandoc -s -r html URL_del_capítulo URL_del_capítulo URL_del_capítulo -o outputfilename.epub

donde cada chapter_url es un enlace a una página web que contiene un capítulo tomará la totalidad de las páginas web a las que hace referencia con chapter_url como un capítulo en el libro electrónico.

  • Precio: Gratis
  • Formatos de salida: Lotes
  • Plataforma: Windows/OS-X/Linux
  • Opción Agregar TdC: -tocagregará una
  • Funciona " recién salido de la caja "
  • Trabajo para usted: Conozca las opciones y especifique las páginas web

El único inconveniente posible es que es posible que desee deshacerse de la información del encabezado y el pie de página, que en este caso sería una operación manual; sin embargo, podría usar pandoc para obtener las páginas en Markdown, editar eso y luego usar pandoc para convertir al formato definitivo.

Por supuesto, debe verificar los permisos/términos de licencia de los autores de las páginas web antes de usar esto para asegurarse de que sea un uso permitido.

Por la cantidad de bricolaje requerida para esto, las desventajas de obtener páginas completas de todos modos y la necesidad de construir su propia URL hacen de esta una solución que es muy inferior a la programación pura de Python (donde uno puede, al menos, evitar tener que compilar 40- larga lista de URL de capítulos y ser capaz de raspar el andamiaje de la página). Al menos de mis necesidades - ymmv

Respuesta un poco más de trabajo: Python + Scrapy

Con python y scrapy puede obtener las páginas web que necesita, separar el contenido de la otra información, posiblemente también obtener otra información vinculada dentro de la historia y cotejarla como desee, hay muchos ejemplos en el sitio web y en stackoverflow.

Python puede incluso crear el libro electrónico para usted directamente, ya sea usando solo las bibliotecas estándar (nuevamente, hay ejemplos en la web de cómo hacer esto) o con ebooklib .

  • Precio: Gratis
  • Formatos de salida: cualquiera que desee implementar
  • Plataforma: Windows/OS-X/Linux/RaspberryPi/muchos otros
  • Opción Agregar ToC: Sí
  • Trabajo para usted: aprenda algo de python y scrapy, identifique las secciones de la página web que necesita, escriba y pruebe los scripts.

Este enfoque requiere más trabajo que mi otra respuesta y no hace el trabajo de inmediato, pero eventualmente producirá un resultado final más atractivo y aprenderá muchas habilidades transferibles.

Por supuesto, debe verificar los permisos/términos de licencia de los autores de las páginas web antes de usar esto para asegurarse de que sea un uso permitido.