Quitar marcas de bolígrafo de una copia escaneada de un libro

Tengo una copia escaneada de un libro muchas líneas en las que están subrayadas con un bolígrafo, también hay notas en los márgenes. Necesito un programa para eliminar estas marcas o para extraer el texto sin perder el formato y guardarlo como documento PDF. El libro fue impreso en papel oscuro. Mi sistema operativo es Windows 7. Estaría muy agradecido por las recomendaciones.

¿Las marcas de bolígrafo son del mismo color que el texto real?
No, las marcas son de color azul oscuro y el texto es negro.

Respuestas (1)

ImageMagick convertse puede utilizar en modo por lotes para filtrar las marcas de lápiz y, al mismo tiempo, reducir las imágenes a monocromáticas (en cualquier caso, normalmente es mejor para OCR). Seleccionaría algunas imágenes típicas, escaneos, primero y probaría para obtener los valores de filtro que necesita, GIMP se puede usar para probar los colores de tinta o puede usar la función de histograma ImageMagick para identificarlos.

ImageMagik es:

  • Gratis, gratis y de código abierto.
  • Multiplataforma (Windows, Linux y OS-X)
  • Programa de manipulación de imágenes de línea de comandos muy flexible y potente
  • Incluso puede volver a ensamblar las imágenes de las páginas en un archivo pdf.

Pero el archivo pdf será una de las imágenes escaneadas limpias. Para hacer que esto se pueda buscar, necesitará ejecutar un programa OCR (reconocimiento óptico de caracteres) en las imágenes limpias.

El OCR tiene un nivel variable de éxito según la calidad de las imágenes, la(s) fuente(s) utilizada(s), la cantidad de diagramas, el entrenamiento del programa (algunos se pueden entrenar) y, hasta cierto punto, cuán oscuro es el texto. muchos programas de OCR intentan corregir en función de la ortografía y el contexto: si está utilizando OCR para ciencias, matemáticas o psicología, por ejemplo, puede esperar muchos errores, ya que hay mucha terminología que no se ajusta al diccionario de inglés estándar. .

Vale la pena echarle un vistazo a Tesseract para realizar el OCR. Es:

  • Gratis, gratis y de código abierto.
  • Multiplataforma (Windows, Linux y OS-X)
  • Muy flexible y potente.
  • Maneja caracteres Unicode UTF-8
  • Puede reconocer más de 100 idiomas fuera de la caja
  • Puede dar salida a texto sin formato, hocr (html), pdf, tsv y pdf de solo texto invisible.
  • Puede ser entrenado para mejorar los resultados.

PD:

Debo decir que, en la mayoría de los casos, dado el tiempo y el esfuerzo necesarios para hacer esto en un libro sustancial, probablemente tendría sentido pasar suficiente tiempo trabajando detrás de una barra, o simplemente en cualquier trabajo de medio tiempo con salario mínimo, para comprar una marca . nueva copia del mismo libro, como libro electrónico o pdf si está disponible, de los editores.