Software para extraer y organizar datos de archivos PDF y Word

Soy un ingeniero que trabaja en un proyecto y tengo muchos documentos con los que lidiar. Incluso si esos documentos están organizados por temas y fechas, cada vez me lleva más tiempo encontrar la información que busco. Espero que algún software (que funcione sin conexión ) pueda ayudar.

Mis documentos son:

  • DOC(X) de Word
  • PDF
  • Páginas de papel manuscritas. Esos han sido escaneados como imágenes (JPG) y no quiero pasar por las cosas de OCR (¡lo que probablemente no funcionará dada mi letra!). Esas imágenes han sido etiquetadas con palabras clave.

Al leer esos documentos, me gustaría tomar notas (ideas interesantes, problemas potenciales, extracción de gráficos, valores numéricos, ...), manteniendo alguna relación entre una nota y los documentos de los que proviene (URL y número de página de un PDF por ejemplo), por lo que cuando hago clic en este enlace, el documento se abrirá en el lugar correcto.

El software "ideal" (Linux y/o Windows, gratuito o no) será capaz de:

  • Extraiga palabras clave de PDF, archivos de Word e imágenes (con o sin ayuda humana)
  • Agregue cualquier número de palabras clave que desee a cualquier documento (si es posible, una palabra clave en un documento debe apuntar a una página específica)
  • Crear notas con enlaces a los documentos en su "base de datos"

PD: He encontrado software como OneNote, CintaNotes o DtSearch y todavía estoy tratando de encontrar si alguna combinación de ellos hará el trabajo, sin éxito hasta ahora...

¿Qué pasa con onenote no hace lo que necesita? Parece que funcionaría para ti.
De hecho, OneNote está bastante cerca de una solución ideal, pero parece posible hacerlo mejor. Siento que debería poder pasar más fácilmente de un software para tomar notas a archivos PDF. Sin embargo, aún no he captado lo que falta ...
Una de las características más útiles que estoy buscando es la extracción de palabras clave de un PDF. Me gustaría extraer automáticamente las palabras clave de los documentos y agregarlas como etiquetas para una búsqueda posterior. Onenote no funciona de esa manera.
@Olivier Dependiendo de cómo se creó el archivo PDF, es posible que no sea posible extraer texto sin pasar por una herramienta de OCR.

Respuestas (2)

Habiendo trabajado en gestión de contenido y conocimiento, el primer enfoque es válido solo si se trata de un proyecto más grande y muy bien financiado, es decir, identificar un producto COTS que hará mucho de lo que necesita de inmediato. A menudo se requiere trabajo adicional para pasar de cumplir, digamos, el 75 % de sus requisitos a acercarse al 100 %. Muchas veces ese trabajo adicional está lejos de ser trivial. Los proveedores potenciales incluyen aquellos que han invertido en analizar archivos PDF, Word y posiblemente OCR, y luego almacenar los contenidos en una base de datos. A menudo, también se ofrece el etiquetado y la aplicación de una estructura a los contenidos mediante XML. Astera y Kapow [una empresa de Lexmark] son ​​dos proveedores que ofrecen una solución de este tipo dirigida a empresas [empresariales] muy grandes.

Más comúnmente, uno encontrará herramientas y soluciones de bricolaje que importarán los archivos sin analizarlos en una base de datos SQL, pero por lo que entiendo aquí, eso no es lo que está buscando.

Un segundo enfoque es la ruta del bricolaje, que puede no costar mucho dinero de su bolsillo, pero que sin duda requerirá una inversión de tiempo y energía. PHP, por ejemplo, tiene PDFlib que se puede usar para hacer lo que necesita con los archivos PDF. Este enlace http://www.php.net/manual/en/ref.pdf.php puede ayudar a explorar ese enfoque en particular. Creo que podría encontrar secuencias de comandos PHP que ya han hecho el trabajo de implementar PDFlib que podría usar tal cual o con algunas modificaciones menores.

Cuando se trata de trabajar con el contenido de los archivos .doc y .docx, parece haber muchas soluciones que utilizan varias herramientas. Este enlace tiene muchas recomendaciones https://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix y este es un hilo que se enfoca en un enfoque de PHP https ://stackoverflow.com/questions/5540886/extraer-texto-de-doc-y-docx . No he investigado esto durante años, pero apostaría a que hay muchas herramientas para un enfoque centrado en Microsoft para trabajar con el contenido y los metadatos de los archivos .doc y .docx [y .xls, .xlsx, etc.] también.

Con OCR, su situación se complica por el hecho de que los archivos están escritos a mano. Si todos estuvieran escritos, creo que habría soluciones más fácilmente disponibles que podrían extraer los contenidos. Bien podría estar equivocado, pero creo que con imágenes escritas a mano y/o dibujadas, estaría buscando aplicar metadatos a los archivos y tener que llamarlo bueno en eso. El trabajo involucrado en este enfoque probablemente llevaría mucho tiempo, incluso con una configuración ideal, ya que todo el trabajo de fondo para configurar una taxonomía y tal tendría que allanar el camino para el trabajo pesado de leer los archivos hechos a mano y decidir cómo categorizar cada uno. , qué etiquetas aplicar, etc. Dejando a un lado la complicación de los archivos escritos a mano, parece haber numerosos proyectos de código abierto y otros en la ruta del bricolaje para un enfoque de tipo OCR. Nuance parece ser el líder,

Con la excepción de mantener todo fuera de línea todo el tiempo , Evernote premium (que permite trabajar sin conexión), suena exactamente como lo que está buscando:

  • Busque en Office, PDF, incluso notas escaneadas escritas a mano
  • Anotar archivos PDF, etc., y buscar en anotaciones
  • Salta directamente a la información
  • Recorte de la web a sus notas
  • Escanear y digitalizar tarjetas de presentación
  • Genera presentaciones a partir de tus notas
  • Multiplataforma incluyendo móvil.

Hay una tarifa de licencia anual para los planes de Evernote por encima del nivel básico.