Quitar marcas de bolígrafo de una copia escaneada de un libro

Question

Quitar marcas de bolígrafo de una copia escaneada de un libro

LOC
ventanas
Software
editor de imagen

negro

Tengo una copia escaneada de un libro muchas líneas en las que están subrayadas con un bolígrafo, también hay notas en los márgenes. Necesito un programa para eliminar estas marcas o para extraer el texto sin perder el formato y guardarlo como documento PDF. El libro fue impreso en papel oscuro. Mi sistema operativo es Windows 7. Estaría muy agradecido por las recomendaciones.

steve barnes

¿Las marcas de bolígrafo son del mismo color que el texto real?

negro

No, las marcas son de color azul oscuro y el texto es negro.

Respuestas (1)

Quitar marcas de bolígrafo de una copia escaneada de un libro

¿Las marcas de bolígrafo son del mismo color que el texto real?
No, las marcas son de color azul oscuro y el texto es negro.

steve barnes · Answer 1

ImageMagick convertse puede utilizar en modo por lotes para filtrar las marcas de lápiz y, al mismo tiempo, reducir las imágenes a monocromáticas (en cualquier caso, normalmente es mejor para OCR). Seleccionaría algunas imágenes típicas, escaneos, primero y probaría para obtener los valores de filtro que necesita, GIMP se puede usar para probar los colores de tinta o puede usar la función de histograma ImageMagick para identificarlos.

ImageMagik es:

Gratis, gratis y de código abierto.
Multiplataforma (Windows, Linux y OS-X)
Programa de manipulación de imágenes de línea de comandos muy flexible y potente
Incluso puede volver a ensamblar las imágenes de las páginas en un archivo pdf.

Pero el archivo pdf será una de las imágenes escaneadas limpias. Para hacer que esto se pueda buscar, necesitará ejecutar un programa OCR (reconocimiento óptico de caracteres) en las imágenes limpias.

El OCR tiene un nivel variable de éxito según la calidad de las imágenes, la(s) fuente(s) utilizada(s), la cantidad de diagramas, el entrenamiento del programa (algunos se pueden entrenar) y, hasta cierto punto, cuán oscuro es el texto. muchos programas de OCR intentan corregir en función de la ortografía y el contexto: si está utilizando OCR para ciencias, matemáticas o psicología, por ejemplo, puede esperar muchos errores, ya que hay mucha terminología que no se ajusta al diccionario de inglés estándar. .

Vale la pena echarle un vistazo a Tesseract para realizar el OCR. Es:

Gratis, gratis y de código abierto.
Multiplataforma (Windows, Linux y OS-X)
Muy flexible y potente.
Maneja caracteres Unicode UTF-8
Puede reconocer más de 100 idiomas fuera de la caja
Puede dar salida a texto sin formato, hocr (html), pdf, tsv y pdf de solo texto invisible.
Puede ser entrenado para mejorar los resultados.

PD:

Debo decir que, en la mayoría de los casos, dado el tiempo y el esfuerzo necesarios para hacer esto en un libro sustancial, probablemente tendría sentido pasar suficiente tiempo trabajando detrás de una barra, o simplemente en cualquier trabajo de medio tiempo con salario mínimo, para comprar una marca . nueva copia del mismo libro, como libro electrónico o pdf si está disponible, de los editores.

Quitar marcas de bolígrafo de una copia escaneada de un libro

negro

steve barnes

negro

Respuestas (1)

steve barnes

PD:

Alternativa a Photoshop Express

Editor de fotos: unión de varias imágenes juntas

Software de Windows para recortar automáticamente los bordes de fotografías de documentos

Editor de fotos gratuito para Windows

Herramienta OCR para imágenes en Windows [duplicado]

Software para la edición masiva de imágenes

Herramienta de indexación, procesamiento y gestión en general de documentos digitalizados

Editor de fotos/imágenes gratuito que tiene capas y texto editable como capas

Editor de diagramas y anotaciones de imágenes

Programa de pintura optimizado al tacto