Software de edición de PDF para la eliminación de márgenes de escaneo oscuros

Suponga que tiene un archivo PDF resultante del escaneo de varias páginas de un libro (en un formato más pequeño que el formato predeterminado del escáner (por ejemplo, 10 cm x 20 cm y DIN A4)) y que la persona que escaneó colocó el libro en posiciones arbitrarias en el escáner ¿Existe alguna herramienta que

  • permite la eliminación automática de esos márgenes (los errores de cálculo del margen son poco probables, pero deben aceptarse)
  • permite ir de página en página y eliminar los márgenes oscuros según las propuestas del programa (no quiero tener que usar ningún tipo de herramientas de edición más allá de eso, tal vez corregir la propuesta, pero no definir el margen desde el principio por arrastrar un marco, mover líneas divididas o algo similar)

La transformación PDF -> imagen(es) -> PDF no debería ser el problema y se puede hacer con dos o tres comandos en la línea de comandos, por lo que si existe una solución por lotes para las imágenes, la consideraría una solución.

Parece que el PDF es todas las imágenes. Un 'nivel medio de trabajo' que se me ocurre es: exportar las imágenes y luego procesarlas por lotes con el software OCR. Pero entonces tendrías texto en lugar de imágenes, y eso puede ir demasiado lejos para ti.
Photoshop? Es capaz de manejar archivos PDF y puede eliminar esas áreas oscuras no deseadas fácilmente con él, supongo.
@Neeku Sí, pero Photoshop no tiene la automatización que describí ("No quiero tener que usar ningún tipo de herramientas de edición más allá de [la propuesta del software generada automáticamente]"). Podría usar cualquier software de edición de imágenes, incluso alternativas mucho menos sofisticadas y/o gratuitas a Photoshop.
Derecha. No estoy seguro de si entiendo lo que quiere decir con la automatización, pero puede crear macros (acciones) en Photoshop para realizar las acciones repetitivas por usted. Pero de nuevo, ¡sí! Entiendo que PS es más para imágenes que para PDF. Además, pude recordar el nombre de la aplicación que usé hace años en Windows, Nitro PDF . No estoy seguro de si debería ponerlo allí como respuesta, ya que no recuerdo si tenía esa función, pero por lo general estaba muy feliz editando archivos PDF con él.
Supongo que GIMP y Blender también tienen muchas posibilidades de secuencias de comandos (excelente API de Python y/o enlaces), pero no es trivial y no puedo imaginar que esto sea más fácil en Photoshop. Además, supongo que la grabación de macros basada en acciones de GUI (en cualquier aplicación) no le ahorrará la implementación de la lógica de reconocimiento de márgenes.

Respuestas (2)

Pruebe el siguiente software:

  • Unpaper [herramienta de línea de cmd, multiplataforma]

    Herramienta de procesamiento posterior para hojas de papel escaneadas, especialmente para páginas de libros que se han escaneado a partir de fotocopias creadas previamente. El objetivo principal es hacer que las páginas de libros escaneados se lean mejor en la pantalla después de la conversión a PDF. Además, unpaper puede ser útil para mejorar la calidad de las páginas escaneadas antes de realizar el reconocimiento óptico de caracteres (OCR). Unpaper intenta limpiar las imágenes escaneadas eliminando los bordes oscuros que aparecieron al escanear o copiar en áreas fuera del contenido real de la página (por ejemplo, áreas oscuras entre el lado izquierdo y el lado derecho de un escaneo de página de libro a doble cara). ).

    Instalación de OSX a través de Homebrew :brew install unpaper

  • Escanear a medida ( GitHub ) [Windows/OSX/Linux]

    Herramienta interactiva de procesamiento posterior para páginas escaneadas. Realiza operaciones como división de página, corrección de inclinación, adición/eliminación de bordes y otras.

    Instalación de OSX a través de Homebrew :brew install scantailor

  • Asistente de escaneo de libros [Java/multiplataforma]

    Una utilidad para ayudar con el escaneo de libros usando cámaras como escáner. Automatizará cosas como recortar, rotar, arreglar la distorsión trapezoidal, arreglar el DPI y enviarlo a archivos tiff que se pueden cambiar a PDF o libros electrónicos.

  • Postprocesador de imagen de escáner de libros de bricolaje

    Un posprocesador de imágenes para el escáner de libros DIY descrito en instructables.com y el escáner de libros DIY . Prepara imágenes para OCR o para PDF. Escrito en Java basado en un puerto parcial de la biblioteca de procesamiento de imágenes Leptonica.

Artículos Relacionados:

Puede probar el programa ImBatch . Es una herramienta de procesamiento de imágenes por lotes para Windows. Puede tomar un archivo PDF de varias páginas como entrada, cada página se puede procesar como una imagen con la tarea "Recortar automáticamente", luego agregar la tarea "Guardar en PDF...", asegurándose de que la opción "Separar archivo PDF para cada imagen" esté desactivada .

Debería funcionar para ti. Sin embargo, no estoy seguro de si la tarea "Autocrop" puede procesar sus páginas correctamente. Esta herramienta también tiene la tarea por lotes "Enderezar texto", en caso de que las páginas se hayan escaneado un poco rotadas.