Herramienta de búsqueda de imágenes y documentos PDF escaneados

Question

Herramienta de búsqueda de imágenes y documentos PDF escaneados

pdf
buscar
Software
búsqueda de texto

joba

Estoy buscando una herramienta que pueda buscar texto en imágenes y documentos PDF escaneados. Probé Evernote y me gustó mucho, pero no quiero tener documentos personales en la nube de otra persona.

Soy un desarrollador, por lo que podría hacer algunas cosas menores yo mismo, pero analizar archivos PDF en busca de texto está fuera de mi alcance.

Características importantes

Sin servicio en la nube
Capacidad para manejar imágenes y documentos PDF escaneados
Debería ser capaz de trabajar de forma fiable con hasta 100.000 documentos.
Debe ejecutarse en Linux o Windows 10 con 8 GB de RAM
Preferiblemente tiene una interfaz web segura que me permite agregar documentos y buscar documentos
Debe admitir documentos grandes > 50 MB

Características menos importantes

Admite el cifrado de documentos (por ejemplo, la búsqueda requiere autenticación)
Puede manejar otros tipos de documentos (sin procesar, docx, pptx, etc.)
Posibilidad de agregar múltiples usuarios

Presupuesto

O unos 50€/año o unos 200€ una vez.

Yves Daoust

Este presupuesto excluye cualquier software comercial, supongo. ¿Readiris, tal vez?

Respuestas (1)

Herramienta de búsqueda de imágenes y documentos PDF escaneados

Este presupuesto excluye cualquier software comercial, supongo. ¿Readiris, tal vez?

steve barnes · Answer 1

Es posible que pueda avanzar con Python pdfminer / pdfminer3k , pero el gran problema es que los archivos PDF escaneados solo contienen texto como resultado de cualquier OCR ( reconocimiento óptico de caracteres ), realizado por el escáner. Esto varía enormemente en calidad dependiendo de la fuente y calidad del documento original y del escáner.

Si el texto está presente y es de buena calidad en el pdf, puede usar pdfminer para extraerlo e indexar sus archivos, pero de lo contrario, primero tendrá que realizar OCR en las imágenes de las páginas usando algo como Aprise o Abby (ambos cargados for) o Tesseract (gratis y con varios interfaces, incluido pyTesseract ).

Si sus archivos PDF incluyen documentos escritos a mano o de baja calidad de escaneo, probablemente tendrá problemas.

Herramienta de búsqueda de imágenes y documentos PDF escaneados

joba

Yves Daoust

Respuestas (1)

steve barnes

Software para buscar a través de archivos (principalmente PDF)

Múltiples archivos PDF que se pueden buscar en el sitio web

Finder search solo busca nombres de archivos (Macbook Air, El Capitan)

El software de búsqueda y reemplazo que acepta palabras de reemplazo cuenta con más de 234,206 caracteres

App para buscar contenidos PDF / business intelligence

OS X: ¿Algún convertidor de formato PDF a Kindle para leer material técnico en Amazon Kindle?

Software para realizar una búsqueda inversa: hacer coincidir un cuerpo de texto con una frase conocida

Buscar anotaciones de texto en Mac Preview

Vista previa: Resaltado de PDF y búsqueda Dejar de funcionar hasta reiniciar

¿Qué herramientas pueden convertir documentos en papel escaneados en PDF de texto con capacidad de búsqueda en Mac?