Herramienta de combinación de archivos de texto

Tengo varios archivos de texto que tienen contenidos que se cruzan parcialmente. Quiero combinarlos de manera de tener todo el contenido en un archivo, pero tener la menor cantidad de duplicados posible. Esta herramienta no tiene que procesar todos los archivos a la vez, estaré satisfecho con procesar pares de archivos uno por uno.

El principal problema es que cuando uso herramientas como Compare++ o SmartSynchronize y kdiff3, intentan sobrescribir algunos bloques en un archivo con bloques de otro, mientras que otras veces, solo agregan bloques, según sea necesario. La mayoría de las veces incluso encuentran correctamente el lugar donde se debe insertar el texto.

Los archivos de pensamiento son grandes, incluso estoy listo para fusionarlos en modo manual, pero carezco de la función que me permite agregar el bloque, digamos, del panel derecho al panel izquierdo en lugar de reemplazarlo. Algunos bloques "recomendados" para reemplazar tienen sentido, otros parecen aleatorios.

No quiero reemplazar una cadena por otra cuando son completamente diferentes, ¡quiero tener ambas cadenas en el archivo resultante!

Sin duda, la herramienta debe ser lo más "inteligente" posible para detectar lugares de inserción. Debido a que las líneas de texto pueden disponerse arbitrariamente, en el siguiente caso

A B

B C

C A

la herramienta no debe tratar Adesde el panel derecho como diff y debe entender claramente que es lo mismo Aque en el panel izquierdo.

La plataforma es Windows.

¿Existe una buena herramienta para encontrar (casi) bloques duplicados dentro de un solo archivo? Como tener un preajuste de "borrosidad", lo que permite que los bloques difieran en N símbolos.

KDiff3 tiene una opción para insertar texto desde a y luego desde b en cada diferencia, pero el problema será cuando encuentre que dos párrafos solo difieren en una línea, sugerirá la diferencia/fusión a nivel de línea en lugar de párrafo. Posiblemente podría evitar esto utilizando los filtros de entrada para eliminar los saltos de línea dentro de los párrafos y luego volver a ajustarlos más tarde.
@SteveBarnes, sí, también "mezcla" las cadenas de una manera extraña (a mí me lo parece). y no puede resolver un problema con bloques de texto intercambiados en archivos (mi ejemplo con AB BC CA). parece que tendré que tomar mis 3-4 horas y hacer todo semi-manualmente. solo tengo que desarrollar la metodología. también, por favor vea miedit
tal vez WinMerge podría ser interesante para ti...

Respuestas (1)

Es un proceso de dos pasos. Primero combine todos los archivos de texto en uno. Cargue el archivo en una herramienta como http://text-analyser.com para procesamiento de lenguaje natural (NLP). La herramienta analizará todas las oraciones en filas. Desde la herramienta del analizador de texto, haga clic en el botón Exportar . Eso genera un archivo de Excel. Luego elimine las otras columnas en el archivo de Excel para aislar la columna de oraciones y luego guárdela como un archivo separado .TAB. Cargue ese archivo en http://text-analyser.com y haga clic en la opción Eliminar duplicados . Durante la importación, la herramienta eliminará todas las oraciones duplicadas. En la pestaña Archivo, haga clic en Nombre de archivo en la tabla Html... ese archivo descargado es unlimpiar/duplicar archivo libre de frases ! Espero que esto ayude a alguien que busca una solución a este problema.