Estoy buscando algún tipo de plataforma de software (o posiblemente una API de código abierto haría la mayor parte de esto) para realizar la clasificación de documentos.
Imagine que obtiene 3000 documentos (word, pdf, powerpoint, formatos mixtos) sobre un grupo de 5 temas diferentes. Querríamos una solución parcialmente automatizada que ayudaría a:
Primero, instale Alfresco y la integración de Calais (puede tardar un día dependiendo de su experiencia).
A continuación, suba todos sus documentos a Alfresco.
Calais es una biblioteca/API desarrollada por Reuters para extraer información semántica de texto humano.
Ahora podrá:
Alfresco solía tener un módulo para encontrar duplicados, pero ya no puedo encontrarlo.
Le sugiero que primero necesite obtener una copia de todos los documentos en formato de texto sin formato, posiblemente rebajado.
Suponiendo que tiene herramientas para abrir la mayoría de ellos que pueden generar texto sin formato, posiblemente automatizado a través de python con win32com , NB para los documentos pdf mucho depende del tipo, si son documentos escaneados que solo tienen las imágenes de las páginas que usted no tienen suerte : si han sido generados por un software como print to pdf, entonces podría usar pdfminer . También debe capturar, junto con metainformación, como la fecha de la última actualización, etc.
Una vez que tenga todos los archivos en formato de texto sin formato, puede usar herramientas como NLTK para tomar las huellas digitales de cada uno de sus archivos de texto analizándolos para extraer elementos significativos, como sustantivos y verbos, y luego contar cada uno de esos elementos. Buscar sus palabras clave en estas listas debería dar una indicación de cuál de los archivos originales es más y menos digno de ver. Los archivos con listas muy similares de elementos significativos y conteos similares probablemente sean copias cercanas entre sí.
steve barnes