Plataforma de clasificación de documentos

Question

Plataforma de clasificación de documentos

PNL
Software
indexación de documentos
gestión de documentos

FrobberOfBits

Estoy buscando algún tipo de plataforma de software (o posiblemente una API de código abierto haría la mayor parte de esto) para realizar la clasificación de documentos.

Imagine que obtiene 3000 documentos (word, pdf, powerpoint, formatos mixtos) sobre un grupo de 5 temas diferentes. Querríamos una solución parcialmente automatizada que ayudaría a:

Determinar la cobertura aproximada del tema en el cuerpo de los documentos.
Ayude a una persona a priorizar qué leer primero y en qué orden leerlos, para minimizar la cantidad de tiempo revisando basura
Busque en todos los documentos a través de formatos para ciertas palabras clave o frases, de manera óptima con cierta capacidad para definir algunos sinónimos (por ejemplo, "adquisición" y "compra")
Determinar qué documentos son copias/versiones entre sí para que solo se examine una copia

steve barnes

Presumiblemente, también necesitaría un mecanismo para distinguir cuál es la versión autorizada donde existen múltiples versiones, por ejemplo, la fecha de la última edición o la última edición realizada por el más confiable, es decir, si la edición más reenviada fue un cambio menor a una versión realmente antigua por parte de un estudiante y un el anterior era del profesor, probablemente lo necesites.

Respuestas (2)

Plataforma de clasificación de documentos

Presumiblemente, también necesitaría un mecanismo para distinguir cuál es la versión autorizada donde existen múltiples versiones, por ejemplo, la fecha de la última edición o la última edición realizada por el más confiable, es decir, si la edición más reenviada fue un cambio menor a una versión realmente antigua por parte de un estudiante y un el anterior era del profesor, probablemente lo necesites.

Nicolás Raúl · Answer 1

Primero, instale Alfresco y la integración de Calais (puede tardar un día dependiendo de su experiencia).
A continuación, suba todos sus documentos a Alfresco.

Calais es una biblioteca/API desarrollada por Reuters para extraer información semántica de texto humano.

Ahora podrá:

Encuentre todos los documentos sobre compras, con una bonita nube de etiquetas.
Busque rápidamente todos los documentos que contengan una palabra clave en particular. También puede combinar esta búsqueda con condiciones sobre etiquetas, nombre de archivo, autor, fecha, etc.
Puede priorizar "destacando" los documentos que necesita leer primero.

Alfresco solía tener un módulo para encontrar duplicados, pero ya no puedo encontrarlo.

steve barnes · Answer 2

Le sugiero que primero necesite obtener una copia de todos los documentos en formato de texto sin formato, posiblemente rebajado.

Suponiendo que tiene herramientas para abrir la mayoría de ellos que pueden generar texto sin formato, posiblemente automatizado a través de python con win32com , NB para los documentos pdf mucho depende del tipo, si son documentos escaneados que solo tienen las imágenes de las páginas que usted no tienen suerte : si han sido generados por un software como print to pdf, entonces podría usar pdfminer . También debe capturar, junto con metainformación, como la fecha de la última actualización, etc.

Una vez que tenga todos los archivos en formato de texto sin formato, puede usar herramientas como NLTK para tomar las huellas digitales de cada uno de sus archivos de texto analizándolos para extraer elementos significativos, como sustantivos y verbos, y luego contar cada uno de esos elementos. Buscar sus palabras clave en estas listas debería dar una indicación de cuál de los archivos originales es más y menos digno de ver. Los archivos con listas muy similares de elementos significativos y conteos similares probablemente sean copias cercanas entre sí.

Plataforma de clasificación de documentos

FrobberOfBits

steve barnes

Respuestas (2)

Nicolás Raúl

steve barnes

Un servicio de almacenamiento de documentos en línea seguro, privado y con capacidad de búsqueda

Gestor documental para oficina sin papel

¿Cuál es el mejor enfoque para archivar/almacenar muchos archivos para acceder a ellos fácilmente más tarde?

Buscando un proveedor de almacenamiento en la nube con capacidades de indexación de contenido

Un software para indexar archivos PDF y administrar colecciones

Software para extraer y organizar datos de archivos PDF y Word

Repositorio de contenido con control de versiones y capacidades de búsqueda de texto completo

Software para encontrar JPG entre miles de documentos escaneados almacenados localmente

Software basado en la web para crear una base de datos de documentos con capacidad de búsqueda con administración de usuarios

Recomendaciones ligeras de gestión de documentos personales (código abierto/.net)