Estoy buscando un marco/biblioteca que preprocesará las imágenes escaneadas y las preparará para un posterior proceso de OCR. Por ejemplo, detectará y eliminará automáticamente el ruido de fondo, mejorará el contraste del texto, etc.
¿Hay algo disponible en el mercado para este propósito?
La biblioteca de imágenes de documentos LEADTOOLS contiene varias funciones de procesamiento de imágenes y limpieza de documentos. Algunos de ellos están diseñados específicamente para el preprocesamiento de OCR. Algunos ejemplos son DotRemoveCommand, DeskewCommand e InvertedPageCommand. Puede intentarlo descargando la edición de prueba SDK completa o la demostración independiente de OCR con un solo clic . (Descargo de responsabilidad: soy un empleado del proveedor de este kit de herramientas).
Por ejemplo, DotRemoveCommand se puede usar para eliminar automáticamente puntos y motas de varios tamaños, el código se verá así:
RasterCodecs codecs = new RasterCodecs();
RasterImage image = codecs.Load("image.tif"));
DotRemoveCommand command = new DotRemoveCommand(DotRemoveCommandFlags.None, 1, 1, 10, 10);
command.Run(image);
izzy