Aplicación para recopilar capítulos de un solo libro de fanfiction.net

Question

Aplicación para recopilar capítulos de un solo libro de fanfiction.net

libros electrónicos
gratis
analizador
raspado
Software
procesamiento de texto

creador de fanfi

Se necesita: software que pueda tomar una historia publicada en varios capítulos en fanfiction.net y luego convertirla en un solo texto/libro.

Gratis

Tecnología deseada: irrelevante (webapp, Windows, Linux, código Perl/Python/Java, etc... son todos aceptables, aunque Windows o webapp son una preferencia débil)

Salida: no importa. Archivo TXT o archivo HTML o epub o cualquier otra cosa legible por texto estándar o lector de libros electrónicos. ( El material de origen es texto sin formato ).

creador de fanfi

Lo sentimos, la etiqueta correcta debe estar relacionada con el raspado de sitios web. Si alguien edita eso, gracias.

Respuestas (2)

Aplicación para recopilar capítulos de un solo libro de fanfiction.net

Lo sentimos, la etiqueta correcta debe estar relacionada con el raspado de sitios web. Si alguien edita eso, gracias.

steve barnes · Answer 1

Respuesta más simple: Pandoc

pandoc -s -r html URL_del_capítulo URL_del_capítulo URL_del_capítulo -o outputfilename.epub

donde cada chapter_url es un enlace a una página web que contiene un capítulo tomará la totalidad de las páginas web a las que hace referencia con chapter_url como un capítulo en el libro electrónico.

Precio: Gratis
Formatos de salida: Lotes
Plataforma: Windows/OS-X/Linux
Opción Agregar TdC: -tocagregará una
Funciona " recién salido de la caja "
Trabajo para usted: Conozca las opciones y especifique las páginas web

El único inconveniente posible es que es posible que desee deshacerse de la información del encabezado y el pie de página, que en este caso sería una operación manual; sin embargo, podría usar pandoc para obtener las páginas en Markdown, editar eso y luego usar pandoc para convertir al formato definitivo.

Por supuesto, debe verificar los permisos/términos de licencia de los autores de las páginas web antes de usar esto para asegurarse de que sea un uso permitido.

Por la cantidad de bricolaje requerida para esto, las desventajas de obtener páginas completas de todos modos y la necesidad de construir su propia URL hacen de esta una solución que es muy inferior a la programación pura de Python (donde uno puede, al menos, evitar tener que compilar 40- larga lista de URL de capítulos y ser capaz de raspar el andamiaje de la página). Al menos de mis necesidades - ymmv

steve barnes · Answer 2

Respuesta un poco más de trabajo: Python + Scrapy

Con python y scrapy puede obtener las páginas web que necesita, separar el contenido de la otra información, posiblemente también obtener otra información vinculada dentro de la historia y cotejarla como desee, hay muchos ejemplos en el sitio web y en stackoverflow.

Python puede incluso crear el libro electrónico para usted directamente, ya sea usando solo las bibliotecas estándar (nuevamente, hay ejemplos en la web de cómo hacer esto) o con ebooklib .

Precio: Gratis
Formatos de salida: cualquiera que desee implementar
Plataforma: Windows/OS-X/Linux/RaspberryPi/muchos otros
Opción Agregar ToC: Sí
Trabajo para usted: aprenda algo de python y scrapy, identifique las secciones de la página web que necesita, escriba y pruebe los scripts.

Este enfoque requiere más trabajo que mi otra respuesta y no hace el trabajo de inmediato, pero eventualmente producirá un resultado final más atractivo y aprenderá muchas habilidades transferibles.

Por supuesto, debe verificar los permisos/términos de licencia de los autores de las páginas web antes de usar esto para asegurarse de que sea un uso permitido.

Aplicación para recopilar capítulos de un solo libro de fanfiction.net

creador de fanfi

creador de fanfi

Respuestas (2)

steve barnes

Respuesta más simple: Pandoc

creador de fanfi

steve barnes

Respuesta un poco más de trabajo: Python + Scrapy

Editor de texto sin formato de Windows que permite poner en negrita/cursiva/sangría

Rastreador web que le permite especificar la profundidad de los dominios vinculados

Software que convierte formato de texto simple a json

Herramienta para ver archivos de registro de eventos de Windows .evtx

Software para descargar todas las imágenes de un sitio web completo

Alternativa Linux a las ediciones Adobe Digital

Obtenga la diferencia de dos textos de literatura regulares (no el código fuente), con marcado en los cambios

Analizador de opciones de línea de comandos para Java

Formateador de texto que entiende la gramática

Utilidad para procesar recursivamente plantillas de archivos de texto y rellenar marcadores de posición