Biblioteca para marco/biblioteca de procesamiento de imágenes pre OCR

Estoy buscando un marco/biblioteca que preprocesará las imágenes escaneadas y las preparará para un posterior proceso de OCR. Por ejemplo, detectará y eliminará automáticamente el ruido de fondo, mejorará el contraste del texto, etc.

¿Hay algo disponible en el mercado para este propósito?

¿En qué sistema operativo debe ejecutarse (o, como pide una biblioteca, con qué idioma debe funcionar)? ¿Cuál es su límite de precio si se trata de software pago?

Respuestas (1)

La biblioteca de imágenes de documentos LEADTOOLS contiene varias funciones de procesamiento de imágenes y limpieza de documentos. Algunos de ellos están diseñados específicamente para el preprocesamiento de OCR. Algunos ejemplos son DotRemoveCommand, DeskewCommand e InvertedPageCommand. Puede intentarlo descargando la edición de prueba SDK completa o la demostración independiente de OCR con un solo clic . (Descargo de responsabilidad: soy un empleado del proveedor de este kit de herramientas).

Por ejemplo, DotRemoveCommand se puede usar para eliminar automáticamente puntos y motas de varios tamaños, el código se verá así:

RasterCodecs codecs = new RasterCodecs(); 
RasterImage image = codecs.Load("image.tif")); 
DotRemoveCommand command = new DotRemoveCommand(DotRemoveCommandFlags.None, 1, 1, 10, 10);  
command.Run(image);
gracias por tu respuesta. He evaluado la "demostración de un clic de OCR", especialmente la funcionalidad de "limpieza de documentos". Desafortunadamente, la calidad de este proceso está lejos de ser perfecta (probablemente sea mi culpa, pero no pude encontrar una manera de aumentar la calidad). Estoy muy triste porque su software tiene un cliente Java y funciona en la plataforma Linux. En este momento, el mejor resultado se logró con ClearImage Image Processing SDK, pero el mayor problema para mí es que este software solo funciona en Windows.