¿Existe un software gratuito que une muchos .html
archivos en uno?
Debería estar en Windows y debería quitar solo los encabezados.
Con Cygwin podrías usar este script Bash :
#!/bin/bash
echo "Enter directory path pages:";
read html_path;
echo "Enter complete filename of the starting page:"
read start_page;
ls $html_path > "list.txt";
grep -iv "</body>" "$html_path/$start_page" | grep -iv "</html>" > "$html_path/all_merged.html";
for i in $(< list.txt)
do
grep -iv "<body>" "$html_path/$i" | grep -iv "<html>" | grep -iv "</body>" | grep -iv "</html>" >> "$html_path/all_merged.html"
done
echo "</body></html>" >> "$html_path/all_merged.html"
echo "Merged file ---> $html_path/all_merged.html"
unset html_path;
unset start_page;
unset i;
Encontré SoftSnow Merger que admite lo que necesito:
La opción "Eliminar encabezado/pie de página" elimina las hojas de estilo redundantes, los bloques de Javascript, las etiquetas HEAD y HTML de los archivos.
Además , VirusTotal no encuentra solo un resultado que parece ser un falso positivo.