Plataforma de clasificación de documentos

Estoy buscando algún tipo de plataforma de software (o posiblemente una API de código abierto haría la mayor parte de esto) para realizar la clasificación de documentos.

Imagine que obtiene 3000 documentos (word, pdf, powerpoint, formatos mixtos) sobre un grupo de 5 temas diferentes. Querríamos una solución parcialmente automatizada que ayudaría a:

  • Determinar la cobertura aproximada del tema en el cuerpo de los documentos.
  • Ayude a una persona a priorizar qué leer primero y en qué orden leerlos, para minimizar la cantidad de tiempo revisando basura
  • Busque en todos los documentos a través de formatos para ciertas palabras clave o frases, de manera óptima con cierta capacidad para definir algunos sinónimos (por ejemplo, "adquisición" y "compra")
  • Determinar qué documentos son copias/versiones entre sí para que solo se examine una copia
Presumiblemente, también necesitaría un mecanismo para distinguir cuál es la versión autorizada donde existen múltiples versiones, por ejemplo, la fecha de la última edición o la última edición realizada por el más confiable, es decir, si la edición más reenviada fue un cambio menor a una versión realmente antigua por parte de un estudiante y un el anterior era del profesor, probablemente lo necesites.

Respuestas (2)

Primero, instale Alfresco y la integración de Calais (puede tardar un día dependiendo de su experiencia).
A continuación, suba todos sus documentos a Alfresco.

Calais es una biblioteca/API desarrollada por Reuters para extraer información semántica de texto humano.

calais

Ahora podrá:

  • Encuentre todos los documentos sobre compras, con una bonita nube de etiquetas.
  • Busque rápidamente todos los documentos que contengan una palabra clave en particular. También puede combinar esta búsqueda con condiciones sobre etiquetas, nombre de archivo, autor, fecha, etc.
  • Puede priorizar "destacando" los documentos que necesita leer primero.

Alfresco solía tener un módulo para encontrar duplicados, pero ya no puedo encontrarlo.

Le sugiero que primero necesite obtener una copia de todos los documentos en formato de texto sin formato, posiblemente rebajado.

Suponiendo que tiene herramientas para abrir la mayoría de ellos que pueden generar texto sin formato, posiblemente automatizado a través de python con win32com , NB para los documentos pdf mucho depende del tipo, si son documentos escaneados que solo tienen las imágenes de las páginas que usted no tienen suerte : si han sido generados por un software como print to pdf, entonces podría usar pdfminer . También debe capturar, junto con metainformación, como la fecha de la última actualización, etc.

Una vez que tenga todos los archivos en formato de texto sin formato, puede usar herramientas como NLTK para tomar las huellas digitales de cada uno de sus archivos de texto analizándolos para extraer elementos significativos, como sustantivos y verbos, y luego contar cada uno de esos elementos. Buscar sus palabras clave en estas listas debería dar una indicación de cuál de los archivos originales es más y menos digno de ver. Los archivos con listas muy similares de elementos significativos y conteos similares probablemente sean copias cercanas entre sí.