Software para encontrar JPG entre miles de documentos escaneados almacenados localmente

¿Alguien puede recomendar un software para administrar miles de documentos escaneados?

Cada documento se escanea en un archivo JPG con el nombre SCANNER_XXXXX.JPG, donde XXXXX es un contador incremental.

Los documentos son mecanografiados, no manuscritos.

Mi plan original era abrir cada archivo manualmente y cambiarle el nombre con una descripción básica del contenido. Eso sería tedioso y llevaría mucho tiempo.

Pero pasar por ese tedioso proceso me permitirá encontrar rápidamente cualquier documento que necesite.

¿Existe un software de Windows que me permita lograr el mismo objetivo (encontrar cualquier documento rápidamente)? No es necesario cambiar el nombre de los archivos (aunque es una ventaja).

Algunos requisitos:

  • Trabajar con Windows 7
  • Gratis es excelente, pero está dispuesto a pagar hasta $ 50
  • Sin tarifas recurrentes (esto descalifica a Evernote)
  • Debe almacenar todos los datos localmente (sin servicios en la nube)
¿Cuál es tu objetivo? ¿Encontrar el JPG correcto escribiendo algo de su contenido?
@NicolasRaoul Excelente pregunta. Mi objetivo es poder localizar una página escaneada cuando la necesito. La forma más obvia es como usted sugiere: escribir algunas palabras clave y recibir una lista de JPG (s) que contienen esas palabras clave. Estoy abierto a otras posibilidades también.

Respuestas (1)

Alfresco+Tesseract puede hacer esto. En el lado positivo, es gratis. En el lado negativo, requiere una gran cantidad de configuración, consume bastante memoria y tiene que estar ejecutándose todo el tiempo. (Honestamente, eso es un poco de puntos negativos, así que espero que exista una solución más simple basada en Solr que solo se ejecute cuando la necesite)

Hace cinco años, personalicé Alfresco para realizar exactamente esta tarea.

Alfresco es un servidor de gestión de documentos, lo que significa que puede cargar archivos (incluidos JPG) y recuperarlos cuando los necesite. Cada documento tiene metadatos (autor, fecha, palabras clave, etc. También puede agregar sus propios campos de metadatos).

Puede integrar Tesseract OCR en Alfresco. Este es el procedimiento técnico (para PDF, pero puede adaptarlo para JPG): http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr

Una vez hecho esto, tiene una "acción" de OCR. El siguiente paso es ejecutar esta acción en cualquier JPG que se cargue. Puede hacerlo fácilmente creando una regla de Alfresco . Ahora, después de que alguien cargue un JPG que contenga la palabra "hola", cuando las personas busquen "hola" utilizando el campo de búsqueda de Alfresco, verán que aparece JPG en los resultados.

JPG de búsqueda al aire libre

Tanto Alfresco como Tesseract son gratuitos y de código abierto.