¿Cómo convertir el texto de diferencia de dos libros electrónicos a texto sin formato? Ambos son el mismo libro pero diferentes ediciones, por lo que gran parte del texto es exactamente el mismo dentro de los cambios de puntuación y guiones.
He leído la edición anterior, así que ahora solo me gustaría hojear los cambios de la nueva edición y no volver a leer la nueva edición completa. ¡Y esto podría ser útil no solo para un libro sino para muchos!
Cosas que encontré, pero no resuelven la tarea:
Cualquier sistema operativo local o servicio en línea remoto funcionará.
Suponiendo que pueda usar un programa de consola para esto, le sugiero vimdiff
. es una herramienta empaquetada con el editor Vim que toma dos archivos como entrada y los presenta uno al lado del otro con desplazamiento sincronizado y resaltado especial para marcar qué líneas son diferentes y qué ha cambiado realmente en una línea. Es lo suficientemente inteligente como para manejar bloques de texto en movimiento (pero no necesariamente reordenaciones complejas de texto), y también doblará (ocultará) automáticamente secciones de los dos archivos que son idénticos.
Sin embargo, dependiendo de cómo fluya el texto en estos dos libros electrónicos, es posible que tenga problemas para encontrar diferencias. Por ejemplo, si un montón de párrafos en una sección están en un orden completamente diferente pero son idénticos, entonces muchas herramientas no reconocerán que son iguales (tal vez reconozcan uno de ellos, pero no todos). Esto es simplemente un efecto secundario de cómo funcionan las herramientas de comparación, y no es probable que encuentre una herramienta que pueda automatizar adecuadamente la búsqueda de tales diferencias (y si lo hace, es probable que sea extremadamente específico en lo que hace).
Además, una pequeña nota al margen, pero diff
no es 'solo para el código fuente del software'. Simplemente tiene dificultades para manejar texto con flujo natural (como el que encontrará en la mayoría de los libros electrónicos, incluso si se convierte a texto sin formato) porque está orientado a líneas, no a palabras.
unor
mna
onurcano
mna