App para buscar contenidos PDF / business intelligence

Tengo la tarea de implementar "algo" capaz de hacer lo que hace Google, pero para archivos PDF. Podría ser algo así como "Google Desktop Search", pero lo ideal sería que la aplicación se ejecutara en un servidor.

Aquí hay algunos antecedentes sobre mi empresa:

  • somos una agencia del gobierno. Tenemos cientos de PDFs con recortes de noticias de sitios que mencionan nuestra agencia o algún tema de nuestro interés
  • nuestro director ejecutivo a menudo da discursos a varias comunidades, por lo que debe recibir información sobre un tema específico antes de ir a una reunión
  • Pensamos que indexar nuestros datos PDF sería un buen comienzo, pero a largo plazo nuestro objetivo es un análisis de datos más estructurado.

Hasta ahora estoy evaluando estas 2 herramientas:

¡gracias!

¿Cómo se crean exactamente sus archivos PDF? ¿Son simples escaneos de una copia impresa? La indexación de archivos PDF requiere que el texto dentro del PDF se represente como cadenas ASCII o Unicode (en el caso de PDFMiner). Si algunos de esos archivos PDF son escaneos de imágenes de un recorte de periódico, por ejemplo, lo más probable es que el texto se represente como una imagen que no es indexable. Entonces, su problema no es indexar archivos PDF, sino convertir sus archivos PDF existentes a través de OCR y luego obtener algún hardware que pueda escanear y OCR al mismo tiempo. Fujitsu hace algunos escáneres de escritorio realmente buenos que logran esto, por ejemplo, fi7180. Ellos
Todavía no está claro lo que estás pidiendo. "Hacer lo que hace Google" es vago y de alcance extremadamente amplio. ¿Quieres buscar texto en archivos PDF? ¿Desea realizar OCR en todos sus archivos PDF y mantener los resultados en algún índice de búsqueda externo? ¿Desea incrustar texto OCRed en el PDF? etc. Además, las agencias gubernamentales no tienen directores ejecutivos :-)

Respuestas (3)

Hace cinco años, personalicé Alfresco para realizar exactamente esta tarea.

Alfresco es un servidor de administración de documentos, lo que significa que puede cargar archivos (incluidos PDF) y sus colegas pueden descargarlos o leerlos en línea. Cada documento tiene metadatos (autor, fecha, palabras clave, etc. También puede agregar sus propios campos de metadatos).

Puede integrar Tesseract OCR en Alfresco. Aquí está el procedimiento técnico: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr

Una vez hecho esto, tiene una "acción" de OCR. El siguiente paso es ejecutar esta acción en cualquier PDF que se cargue. Puede hacerlo fácilmente creando una regla de Alfresco . Ahora, después de que alguien cargue un PDF que contenga la palabra "hola", cuando las personas busquen "hola" usando el campo de búsqueda de Alfresco, verán que el PDF aparece en los resultados.

PDF de búsqueda de Alfresco

Tanto Alfresco como Tesseract son gratuitos y de código abierto.

esto se ve muy bien! enhorabuena y gracias por la respuesta! =)

Puede echar un vistazo a pythons pdf-miner para extraer la información para indexar en formato de texto. NLTK también podría ser útil para seleccionar partes relevantes del discurso que serían significativas.