Descargador de todo el sitio web

¿Cómo se descarga una copia estática de un sitio web? Quiero decir, no cargar scripts y usarlos más tarde cuando carga la página "fuera de línea", sino guardar el DOM como está DESPUÉS de que todos los scripts hicieron cambios en la página, para que la próxima vez que cargue el sitio web no haga ping a otros sitios web para cualquier cosa, y la versión que ve en ese HTML es lo que se guardó del escaneo, no lo que los scripts generaron una segunda vez, en la computadora del espectador.

Esa podría ser la definición de fuera de línea, pero supongo que también estoy buscando fuera de línea, estático y tonto.

En Chrome, IE y Firefox, puede hacer clic derecho para guardar la página tal como se ve.
Sí, pero todos los archivos se cargan, incluido JS, y cuando activan la carga, el DOM se cambia nuevamente, independientemente de lo que haya cargado.

Respuestas (4)

No sé si es lo que está buscando, pero aquí hay un gran software que debería mirar: HTTrack Website Copier . No lo uso mucho, pero por lo que vi hasta la fecha, funciona muy bien, descargue el sitio web. Además, lo verifiqué con Norton y es seguro contra virus.

Sí, ese programa es perfectamente seguro y lo recomiendo mucho.

Una secuencia de comandos PhantomJS puede hacer "guardar el DOM tal como está DESPUÉS de que todas las secuencias de comandos realizaron cambios en la página", pero este ejemplo no aborda las otras partes del problema, como guardar imágenes localmente.

var page = require('webpage').create();
var fs = require('fs');

var url = 'https://www.google.com/';

page.open(url, function(status) { // Load the web-page

    setInterval(function()        // Give any scripts a few seconds to mess around with the page's structure
    {
        console.log(status);

        page.render('page.png');  // Save web-page as an image - in case you *really* want offline, static and dumb ;-)

        // Get the content of the page
        var html = page.evaluate(function() {
            return document.documentElement.outerHTML;
        });

        // Save the content of the page
        fs.write('./index.html', html, 'w');

        phantom.exit();

    }, 3000);
});

Puede buscar los siguientes formatos:

  • MAFF : un formato de archivo de página web proporcionado por Firefox a través de una extensión
  • MHTML : formato de archivo de página web utilizado para combinar en un solo documento el código HTML

Para usar estos formatos, intente instalar el complemento Mozilla Archive Format , que guarda todos los recursos en un solo archivo ZIP (MAFF), para que pueda volver al sitio original desde el que guardó una página. También admite archivos MHT (MHTML).

Prueba HTTrack Website Copier . Lo he usado y es realmente bueno. Nunca necesité probar otro software para este propósito. Si quieres tener opciones a mano, echa un vistazo aquí . ¡Buena suerte! :)