Software de escaneo de documentos con OCR que aprovecha múltiples CPU

Actualmente uso el software que vino con mis escáneres planos CanoScan. Mi principal queja sobre el software incluido: no hay posibilidad de definir perfiles de escaneo, demasiado lento (no es capaz de usar múltiples núcleos/hilos de CPU).

Lo que busco no es el procesamiento por lotes con escáneres de documentos ADF de mayor volumen, sino la captura ad hoc con escáneres de superficie plana. Es para escanear documentos que no son aptos para escáneres ADF, es decir, documentos que son demasiado delgados/gruesos/grandes o que constan de varias piezas más pequeñas que deben estar juntas en una imagen.

Me imagino un flujo de trabajo comparable al de las impresoras multifunción empresariales en las que coloca su documento en el cristal y elige un perfil de escaneo en la pantalla, excepto que elige el perfil de escaneo en la PC a la que está conectado el escáner de superficie plana.

Funciones de software previstas:

  1. funciona con controladores TWAIN,
  2. perfiles de escaneo (= combinación definida por el usuario de dpi, configuración de mejora de imagen, idioma OCR, tipo de archivo de salida),
  3. optimizado para múltiples núcleos/hilos de CPU,
  4. características de mejora de imagen (seleccionables como parte de los perfiles de escaneo), por ejemplo, eliminar pantalla, evitar el traspaso, enderezar, recortar automáticamente,
  5. OCR para los principales idiomas europeos,
  6. formato de salida: TIFF, PDF con capacidad de búsqueda, PDF/A, jpg, jpg2000

Me gustaría evitar un software que siga el enfoque de escaneo por lotes porque agrega una complejidad innecesaria.

Ejecuto Windows, pero estoy considerando pasarme a Mac OS como alternativa si no encuentro un software de Windows adecuado y hay un buen software para OSX.

Vale la pena echarle un vistazo entonces: Herramienta para extraer texto de un escaneo . No es exactamente lo que busca, pero vea la respuesta de OCRFeeder : esa herramienta es compatible directamente con los escáneres (una página por escaneo) y debe cumplir al menos los puntos d a f de su lista. Al no ser usuario de Windows, no tengo una recomendación directa para esa plataforma.
Parece que quieres un software más rápido. ¿Aceptaría una solución de un solo subproceso si funcionara notablemente más rápido?
@Kelly Thomas: Sí, lo haría.

Respuestas (2)

Agrego Vuescan de hamrick.com a mi lista de sugerencias.

Sugiero Omnipage Pro de Nuance.

Es compatible con 120 idiomas.

http://www.nuance.com/for-business/by-product/omnipage/ultimate/index.htm

En cuanto a los perfiles de escaneo, mi software de escáner epson los tiene. Por lo tanto, es posible que falten "perfiles de escaneo" dependiendo de su escáner.

Los programas de escaneo aman la memoria, necesita al menos 8 GB si no 16 GB

Soporte de carga ingrese la descripción de la imagen aquíGuardar tipo de imagen: ingrese la descripción de la imagen aquíGuardar tipo de texto: ingrese la descripción de la imagen aquíAquí está la barra de herramientas de mejora de imagen ingrese la descripción de la imagen aquíDe izquierda a derecha "Puntero" "Zoom" "Seleccionar área" "Cambiar entre imagen primaria y OCR" "Sincronizar vistas" "Brillo/Contraste" "Tono/Saturación /Ligereza" "Recortar" "Girar/voltear" "Eliminar manchas" "Brillo de OCR" "Omitir color" "Resolución" "Enderezar" "Enderezar 3D" "Rellenar" "Recortar automáticamente" "Limpiar bordes" "Eliminar perforaciones" " Foto de pizarra mejorada"

¡Muchas gracias por tu pista! El software es bastante caro a 500 USD. De la lista de características en el enlace que proporcionó, no está claro si se cumplen mis criterios 2, 3, 4 y 6. Omnipage está en el mercado desde hace mucho tiempo. Dicho software heredado a menudo está sobrecargado con funciones innecesarias y es horrible de usar. ¿Es fácil de usar para que no tenga que pasar horas para descubrir cómo usarlo?
Le sugiero que llame, envíe un correo electrónico, etc. y obtenga una versión de prueba de Omnipage Pro Ultimate. Adobe acrobat Pro es similar pero igualmente costoso.
En términos de facilidad de uso, todas las características normales lo son. Hay características avanzadas que tienes que aprender. No probé la versión más reciente de todos los programas, pero este producto era mejor que cualquier otro software que viniera con un escáner en el momento de la prueba, excepto que Adobe Pro era demasiado costoso, por lo que no lo probé. He usado la versión I y amigos/familiares/etc. Las funciones como escanear una página con 3 columnas y una o más tienen una imagen, o la imagen se corta en 3 columnas, generalmente hace que la mayoría de los otros productos de escaneo vomiten. Omnipage claramente hace un mejor trabajo.
cybernard dijo que "podrían faltar" perfiles de escaneo "dependiendo de su escáner". Como usted dice, los perfiles de escaneo pueden ser parte de su controlador TWAIN/ISIS. Pero también hay software de escaneo en el mercado con perfiles de escaneo independientes del controlador del escáner (por ejemplo, ExactScan para Mac). Los perfiles de escaneo permiten automatizar mucho el escaneo. Las funciones que muestra en la captura de pantalla "Mejora de la imagen" son manuales, lo que es contrario a mi objetivo de automatización.
Adobe tiene 5 perfiles de escaneo predefinidos, uno de ellos es "Escaneo personalizado...". Lo que necesito es la posibilidad de definir mis propios perfiles, no solo uno, digamos al menos 10. Al parecer, Omnipage Pro Ultimate no es compatible con esas características. Por lo tanto, no es adecuado para mi propósito.
El controlador de mi escáner ofrece perfiles de escaneo. Dado que un controlador de escáner nunca incluye OCR, necesito dividir la captura del documento en 2 pasos: 1er escaneo, 2do OCR. Lo que estoy buscando es tener estos 2 pasos de una sola vez. Luego, un usuario podría abrir el software de escaneo, elegir un perfil de acuerdo con las características del documento a escanear y obtener el resultado sin saber mucho sobre los detalles del software. ExactScan hace eso para Mac. Existe una versión beta de ExactScan para Windows, pero no está optimizada para varios núcleos/subprocesos de CPU.
Si configura Omnipage Pro para usar controladores TWAIN para el escáner, mostrará la interfaz nativa del escáner. Traté de usar ExactScan para Windows y no pudo reconocer mi escáner y cuando traté de guardar un PDF con texto de búsqueda no obtuve texto cuando usé un archivo de imagen como sustituto de un escáner.
Ahora que sé cómo funciona ExactScan, definitivamente recomendaría Vuescan de www.hamrick.com. Demostración gratuita disponible. Las opciones se pueden guardar en archivos .ini para que pueda cargar múltiples perfiles fácilmente. Deberá hacer clic en el botón avanzado en varias pantallas diferentes para habilitar OCR y guardar el texto en un archivo si lo desea.
Gracias por los comentarios sobre ExactScan beta. La interfaz nativa del escáner es a menudo (como opción) accesible en el software de escaneo, por ejemplo, también en Adobe. El problema es que generalmente requiere clics adicionales para llegar allí, a veces demasiados (como en Adobe). Tal solución es, por un lado, no "a prueba de idiotas" y, por otro lado, agrega innecesariamente clics y tiempo para obtener un resultado. Creo que algunos productores de escáneres se mueven en esta dirección con perfiles de escaneo (p. ej., Canon), pero todavía no están completamente allí (el software de Canon, por ejemplo, carece de la posibilidad de configurar sus propios perfiles de escaneo).
Conozco Vuescan y me gusta. Desafortunadamente, solo funciona con WIA pero no con controladores TWAIN. Y uno de mis escáneres tiene un controlador WIA que no se puede usar debido a un error. Es una pena que no pueda usar Vuescan con este escáner.
Hace algún tiempo probé IDM Scan 2.0 (www.idmscan.com). Ofrece perfiles de escaneo. No tuve tiempo suficiente para probarlo por completo antes de que se agotara el período de prueba. Si no recuerdo mal, no ofrece OCR y la interfaz de usuario no me convenció del todo.
¿Le envió un correo electrónico al autor de Vuescan para ver si agregaría soporte TWAIN para su escáner? ¿Puedo asumir que revisa periódicamente las actualizaciones de controladores y/o envié un correo electrónico a la compañía para ver si se reparará el escáner con WIA roto? Es mejor escanear todo como TIFF de 600/1200 ppp y OCR después. Un nuevo escáner compatible a través de TWAIN y Vuescan costaría mucho menos que un software de nivel profesional. Epson v550 cuesta $149 y es compatible con VueScan.
Sí, contacté con Vuescan. No utiliza TWAIN, solo WIA. Desafortunadamente, Lexmark no actualizó el controlador WIA durante más de 2 años. Los contacté ahora y veré lo que dicen.
El problema con los escáneres de superficie plana es la velocidad bastante lenta. La Lexmark Genesis S815 utiliza un módulo de cámara que toma una imagen de toda la página. El escaneo se realiza en 3 segundos. La mayoría de los escáneres planos estándar necesitan 8 segundos o más. Mi idea era automatizar todo lo posible el proceso en un solo paso con una captura rápida por el escáner. Me sorprende que ningún otro fabricante ofrezca un escáner de superficie plana con módulo de cámara. La ventaja de una mayor velocidad es bastante obvia.

Debería echar un vistazo a Abbyy Finereader , sinceramente, no estoy seguro de que cumpla con todos sus criterios porque utilicé una versión anterior hace unos años. Todo lo que recuerdo es que funcionó con mi escáner y fue realmente eficiente y fácil de usar.

De todos modos, puedes probarlo gratis, así que creo que la mejor manera de encontrar si realmente se adapta a tus necesidades es probarlo.

Editar: De acuerdo con las especificaciones técnicas de la última versión , parece cumplir bastante bien con sus expectativas.

Conozco a Abbyy Finereader. Su enfoque está en OCR, no en la automatización de escaneo en mi sentido. Debido a que no ofrece perfiles de escaneo, está muerto en el agua.