Estoy buscando una herramienta que pueda buscar texto en imágenes y documentos PDF escaneados. Probé Evernote y me gustó mucho, pero no quiero tener documentos personales en la nube de otra persona.
Soy un desarrollador, por lo que podría hacer algunas cosas menores yo mismo, pero analizar archivos PDF en busca de texto está fuera de mi alcance.
Características importantes
Características menos importantes
Presupuesto
O unos 50€/año o unos 200€ una vez.
Es posible que pueda avanzar con Python pdfminer / pdfminer3k , pero el gran problema es que los archivos PDF escaneados solo contienen texto como resultado de cualquier OCR ( reconocimiento óptico de caracteres ), realizado por el escáner. Esto varía enormemente en calidad dependiendo de la fuente y calidad del documento original y del escáner.
Si el texto está presente y es de buena calidad en el pdf, puede usar pdfminer para extraerlo e indexar sus archivos, pero de lo contrario, primero tendrá que realizar OCR en las imágenes de las páginas usando algo como Aprise o Abby (ambos cargados for) o Tesseract (gratis y con varios interfaces, incluido pyTesseract ).
Si sus archivos PDF incluyen documentos escritos a mano o de baja calidad de escaneo, probablemente tendrá problemas.
Yves Daoust