App para buscar contenidos PDF / business intelligence

Question

App para buscar contenidos PDF / business intelligence

pdf
buscar
Software

lucas pottersky

Tengo la tarea de implementar "algo" capaz de hacer lo que hace Google, pero para archivos PDF. Podría ser algo así como "Google Desktop Search", pero lo ideal sería que la aplicación se ejecutara en un servidor.

Aquí hay algunos antecedentes sobre mi empresa:

somos una agencia del gobierno. Tenemos cientos de PDFs con recortes de noticias de sitios que mencionan nuestra agencia o algún tema de nuestro interés
nuestro director ejecutivo a menudo da discursos a varias comunidades, por lo que debe recibir información sobre un tema específico antes de ir a una reunión
Pensamos que indexar nuestros datos PDF sería un buen comienzo, pero a largo plazo nuestro objetivo es un análisis de datos más estructurado.

Hasta ahora estoy evaluando estas 2 herramientas:

¡gracias!

essexboyracer

¿Cómo se crean exactamente sus archivos PDF? ¿Son simples escaneos de una copia impresa? La indexación de archivos PDF requiere que el texto dentro del PDF se represente como cadenas ASCII o Unicode (en el caso de PDFMiner). Si algunos de esos archivos PDF son escaneos de imágenes de un recorte de periódico, por ejemplo, lo más probable es que el texto se represente como una imagen que no es indexable. Entonces, su problema no es indexar archivos PDF, sino convertir sus archivos PDF existentes a través de OCR y luego obtener algún hardware que pueda escanear y OCR al mismo tiempo. Fujitsu hace algunos escáneres de escritorio realmente buenos que logran esto, por ejemplo, fi7180. Ellos

einpoklum

Todavía no está claro lo que estás pidiendo. "Hacer lo que hace Google" es vago y de alcance extremadamente amplio. ¿Quieres buscar texto en archivos PDF? ¿Desea realizar OCR en todos sus archivos PDF y mantener los resultados en algún índice de búsqueda externo? ¿Desea incrustar texto OCRed en el PDF? etc. Además, las agencias gubernamentales no tienen directores ejecutivos :-)

Respuestas (3)

App para buscar contenidos PDF / business intelligence

¿Cómo se crean exactamente sus archivos PDF? ¿Son simples escaneos de una copia impresa? La indexación de archivos PDF requiere que el texto dentro del PDF se represente como cadenas ASCII o Unicode (en el caso de PDFMiner). Si algunos de esos archivos PDF son escaneos de imágenes de un recorte de periódico, por ejemplo, lo más probable es que el texto se represente como una imagen que no es indexable. Entonces, su problema no es indexar archivos PDF, sino convertir sus archivos PDF existentes a través de OCR y luego obtener algún hardware que pueda escanear y OCR al mismo tiempo. Fujitsu hace algunos escáneres de escritorio realmente buenos que logran esto, por ejemplo, fi7180. Ellos
Todavía no está claro lo que estás pidiendo. "Hacer lo que hace Google" es vago y de alcance extremadamente amplio. ¿Quieres buscar texto en archivos PDF? ¿Desea realizar OCR en todos sus archivos PDF y mantener los resultados en algún índice de búsqueda externo? ¿Desea incrustar texto OCRed en el PDF? etc. Además, las agencias gubernamentales no tienen directores ejecutivos :-)

Nicolás Raúl · Answer 1

Hace cinco años, personalicé Alfresco para realizar exactamente esta tarea.

Alfresco es un servidor de administración de documentos, lo que significa que puede cargar archivos (incluidos PDF) y sus colegas pueden descargarlos o leerlos en línea. Cada documento tiene metadatos (autor, fecha, palabras clave, etc. También puede agregar sus propios campos de metadatos).

Puede integrar Tesseract OCR en Alfresco. Aquí está el procedimiento técnico: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr

Una vez hecho esto, tiene una "acción" de OCR. El siguiente paso es ejecutar esta acción en cualquier PDF que se cargue. Puede hacerlo fácilmente creando una regla de Alfresco . Ahora, después de que alguien cargue un PDF que contenga la palabra "hola", cuando las personas busquen "hola" usando el campo de búsqueda de Alfresco, verán que el PDF aparece en los resultados.

Tanto Alfresco como Tesseract son gratuitos y de código abierto.

esto se ve muy bien! enhorabuena y gracias por la respuesta! =)

steve barnes · Answer 2

Puede echar un vistazo a pythons pdf-miner para extraer la información para indexar en formato de texto. NLTK también podría ser útil para seleccionar partes relevantes del discurso que serían significativas.

Cristóbal · Answer 3

Hasta ahora mi evaluación de Noggle ha sido positiva: https://software4scholars.wordpress.com/2018/08/03/noggle-search-the-content-of-all-your-files/

App para buscar contenidos PDF / business intelligence

lucas pottersky

essexboyracer

einpoklum

Respuestas (3)

Nicolás Raúl

lucas pottersky

steve barnes

Cristóbal

Finder search solo busca nombres de archivos (Macbook Air, El Capitan)

Software para buscar a través de archivos (principalmente PDF)

Herramienta de búsqueda de imágenes y documentos PDF escaneados

Múltiples archivos PDF que se pueden buscar en el sitio web

OS X: ¿Algún convertidor de formato PDF a Kindle para leer material técnico en Amazon Kindle?

Buscar anotaciones de texto en Mac Preview

Vista previa: Resaltado de PDF y búsqueda Dejar de funcionar hasta reiniciar

Búsqueda de puntuación en Vista previa

Buscar una colección de archivos de Word y PDF

En iBooks de iPad, ¿cómo hacer que aparezca resaltado para archivos PDF?