Tengo la tarea de implementar "algo" capaz de hacer lo que hace Google, pero para archivos PDF. Podría ser algo así como "Google Desktop Search", pero lo ideal sería que la aplicación se ejecutara en un servidor.
Aquí hay algunos antecedentes sobre mi empresa:
Hasta ahora estoy evaluando estas 2 herramientas:
¡gracias!
Hace cinco años, personalicé Alfresco para realizar exactamente esta tarea.
Alfresco es un servidor de administración de documentos, lo que significa que puede cargar archivos (incluidos PDF) y sus colegas pueden descargarlos o leerlos en línea. Cada documento tiene metadatos (autor, fecha, palabras clave, etc. También puede agregar sus propios campos de metadatos).
Puede integrar Tesseract OCR en Alfresco. Aquí está el procedimiento técnico: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr
Una vez hecho esto, tiene una "acción" de OCR. El siguiente paso es ejecutar esta acción en cualquier PDF que se cargue. Puede hacerlo fácilmente creando una regla de Alfresco . Ahora, después de que alguien cargue un PDF que contenga la palabra "hola", cuando las personas busquen "hola" usando el campo de búsqueda de Alfresco, verán que el PDF aparece en los resultados.
Tanto Alfresco como Tesseract son gratuitos y de código abierto.
Hasta ahora mi evaluación de Noggle ha sido positiva: https://software4scholars.wordpress.com/2018/08/03/noggle-search-the-content-of-all-your-files/
essexboyracer
einpoklum