Herramienta de búsqueda de imágenes y documentos PDF escaneados

Estoy buscando una herramienta que pueda buscar texto en imágenes y documentos PDF escaneados. Probé Evernote y me gustó mucho, pero no quiero tener documentos personales en la nube de otra persona.

Soy un desarrollador, por lo que podría hacer algunas cosas menores yo mismo, pero analizar archivos PDF en busca de texto está fuera de mi alcance.

Características importantes

  1. Sin servicio en la nube
  2. Capacidad para manejar imágenes y documentos PDF escaneados
  3. Debería ser capaz de trabajar de forma fiable con hasta 100.000 documentos.
  4. Debe ejecutarse en Linux o Windows 10 con 8 GB de RAM
  5. Preferiblemente tiene una interfaz web segura que me permite agregar documentos y buscar documentos
  6. Debe admitir documentos grandes > 50 MB

Características menos importantes

  1. Admite el cifrado de documentos (por ejemplo, la búsqueda requiere autenticación)
  2. Puede manejar otros tipos de documentos (sin procesar, docx, pptx, etc.)
  3. Posibilidad de agregar múltiples usuarios

Presupuesto

O unos 50€/año o unos 200€ una vez.

Este presupuesto excluye cualquier software comercial, supongo. ¿Readiris, tal vez?

Respuestas (1)

Es posible que pueda avanzar con Python pdfminer / pdfminer3k , pero el gran problema es que los archivos PDF escaneados solo contienen texto como resultado de cualquier OCR ( reconocimiento óptico de caracteres ), realizado por el escáner. Esto varía enormemente en calidad dependiendo de la fuente y calidad del documento original y del escáner.

Si el texto está presente y es de buena calidad en el pdf, puede usar pdfminer para extraerlo e indexar sus archivos, pero de lo contrario, primero tendrá que realizar OCR en las imágenes de las páginas usando algo como Aprise o Abby (ambos cargados for) o Tesseract (gratis y con varios interfaces, incluido pyTesseract ).

Si sus archivos PDF incluyen documentos escritos a mano o de baja calidad de escaneo, probablemente tendrá problemas.