Múltiples archivos PDF que se pueden buscar en el sitio web

Tengo una gran cantidad de archivos PDF que deben publicarse en línea.

Actualmente uso una base de datos para almacenar palabras clave para cada PDF (así como otros metadatos y el nombre del archivo para proporcionar un enlace).

Utilizo un formulario de búsqueda HTML y algún código PHP que luego usa las palabras clave en la base de datos para hacer coincidir los registros y proporcionar una página de resultados con los títulos y enlaces a los archivos PDF.

Sin embargo, mantener listas extensas de palabras clave para cada PDF consume mucho tiempo.

En su lugar, me gustaría usar un software que automatice ese proceso al poder buscar el contenido de los archivos PDF. Tendría que ser algo que pueda implementar en un sitio web, no una aplicación de escritorio.

¿Existe tal software?

No estoy al tanto de tal software. Si no puede encontrar ninguno, un enfoque alternativo sería tener el "contenido textual" del PDF en una columna de texto y usar una búsqueda de texto completo en eso. La mayoría de las bases de datos proporcionan tales características.

Respuestas (1)

Hay un producto de software Apache llamado Lucene que es un popular motor de indexación y búsqueda. La lista de características debe indicarle si proporciona los detalles de las capacidades de búsqueda que necesita.

Hay una extensión que puede usar ( lucene-pdf ) para ayudar específicamente con la indexación de pdf. Está basado en Java, por lo que puede instalarlo en casi cualquier servidor y hay una versión de Python disponible si se adapta mejor a su entorno.

Espero que eso ayude.