Tengo varios archivos de texto que tienen contenidos que se cruzan parcialmente. Quiero combinarlos de manera de tener todo el contenido en un archivo, pero tener la menor cantidad de duplicados posible. Esta herramienta no tiene que procesar todos los archivos a la vez, estaré satisfecho con procesar pares de archivos uno por uno.
El principal problema es que cuando uso herramientas como Compare++ o SmartSynchronize y kdiff3, intentan sobrescribir algunos bloques en un archivo con bloques de otro, mientras que otras veces, solo agregan bloques, según sea necesario. La mayoría de las veces incluso encuentran correctamente el lugar donde se debe insertar el texto.
Los archivos de pensamiento son grandes, incluso estoy listo para fusionarlos en modo manual, pero carezco de la función que me permite agregar el bloque, digamos, del panel derecho al panel izquierdo en lugar de reemplazarlo. Algunos bloques "recomendados" para reemplazar tienen sentido, otros parecen aleatorios.
No quiero reemplazar una cadena por otra cuando son completamente diferentes, ¡quiero tener ambas cadenas en el archivo resultante!
Sin duda, la herramienta debe ser lo más "inteligente" posible para detectar lugares de inserción. Debido a que las líneas de texto pueden disponerse arbitrariamente, en el siguiente caso
A B
B C
C A
la herramienta no debe tratar A
desde el panel derecho como diff y debe entender claramente que es lo mismo A
que en el panel izquierdo.
La plataforma es Windows.
¿Existe una buena herramienta para encontrar (casi) bloques duplicados dentro de un solo archivo? Como tener un preajuste de "borrosidad", lo que permite que los bloques difieran en N símbolos.
Es un proceso de dos pasos. Primero combine todos los archivos de texto en uno. Cargue el archivo en una herramienta como http://text-analyser.com para procesamiento de lenguaje natural (NLP). La herramienta analizará todas las oraciones en filas. Desde la herramienta del analizador de texto, haga clic en el botón Exportar . Eso genera un archivo de Excel. Luego elimine las otras columnas en el archivo de Excel para aislar la columna de oraciones y luego guárdela como un archivo separado .TAB. Cargue ese archivo en http://text-analyser.com y haga clic en la opción Eliminar duplicados . Durante la importación, la herramienta eliminará todas las oraciones duplicadas. En la pestaña Archivo, haga clic en Nombre de archivo en la tabla Html... ese archivo descargado es unlimpiar/duplicar archivo libre de frases ! Espero que esto ayude a alguien que busca una solución a este problema.
steve barnes
jungla_topo
edit
DJCrashdummy