Diferencias para páginas HTML

Tengo algunos cientos de archivos HTML cuyo contenido es bastante similar. Estoy buscando un programa GUI para Windows que me permita definir un área en el HTML (por ejemplo, una tabla) que debería diferir en todos los archivos HTML.

Por ejemplo, dado:

archivo1.html:

<table>hey<table>

archivo2.html:

<table>hey<table>

archivo3.html:

<table>hello<table>

La diferencia debería mostrar que file3.html contiene algo diferente en la tabla.

Sé cómo codificarlo (por ejemplo, Python + Beautiful Soup) pero me pregunto si existe algún programa para ese propósito.

¿Desea designar áreas específicas en los archivos para comparar (por ejemplo, esto no es una comparación de archivos completos)? ¿Cómo designarías esas áreas?
@IraBaxter Por ejemplo, seleccionar texto en una página HTML, o elemento como en Chrome Developer Tools.
En un nivel alto, ¿qué estás tratando de lograr? ¿Solo desea comparar dos archivos a la vez, o comparar una lista de archivos con un archivo, o qué? ¿Desea comparar el contenido de las páginas web renderizadas o la fuente HTML?
@MartinCarney Descargué una página web cada 30 segundos durante algunos días. La página contiene una tabla, que a veces cambia. Quiero detectar tales cambios.
Entonces, está más interesado en los datos de la tabla que en el marcado html. Si las respuestas dadas no lo resuelven, probablemente sea mejor codificar algo. Hay muchas bibliotecas para leer html/xml en la mayoría de los lenguajes de programación, por lo que solo necesita profundizar en la tabla y extraer los datos, luego compararlos.

Respuestas (2)

Soy fanático de la herramienta de diferencias Meld para este tipo de cosas. Le permite comparar hasta 3 archivos a la vez, según lo solicite, pero también comparará directorios completos si es necesario.

Solo algunas características de su página de inicio:

  • Comparación bidireccional y tripartita de archivos y directorios
  • Las comparaciones de archivos se actualizan a medida que escribe
  • El modo de fusión automática y las acciones en los bloques de cambio ayudan a facilitar las fusiones
  • Las visualizaciones facilitan la comparación de sus archivos
  • Admite Git, Bazaar, Mercurial, Subversion, etc.

Aquí hay una pequeña imagen del sitio de Meld para la capacidad de diferencias que muestra bloques de diferencias o un pequeño cambio en una línea:

ingrese la descripción de la imagen aquí

Se ejecuta en Windows, tiene paquetes para la mayoría de las distribuciones de Linux e incluso tiene una versión para Mac, por lo que puedes cambiar de entorno si lo deseas.

Prueba Más Allá de Comparar . Es muy flexible, admite muchos formatos y ahora comparará 3 archivos.

Puede asignar un alias a una sección de un archivo a otro en otro archivo incluso cuando el escáner automático rechace la similitud. Es decir, puede obligarlo a diferenciar las secciones que desea comparar.

Los archivos de texto se pueden ver y editar con resaltado de sintaxis y reglas de comparación ajustadas específicamente para documentos, código fuente y HTML.

¿Puede editar su respuesta e incluir cómo Beyond Compare cumple con el requisito de "me permitiría definir un área en el HTML (por ejemplo, una tabla) que debería diferenciarse en todos los archivos HTML"?