Descargar todo el sitio web con sub-urls de primer grado

Me gustaría descargar un sitio web y todas sus subdirecciones URL de primer grado, como archivos txt o html. Por ejemplo, me gustaría descargar:

google.com y google.com/10001 y google.com/10002 etc. pero no google.com/1001/1002

HTTrack no es lento en la descarga, pero antes de descargar, escanea todas las direcciones URL, lo cual es muy lento.

El software debe ejecutarse en Windows y ser gratuito.

Necesito omitir robot.txt

Respuestas (1)

¿No debería HTTrack permitir establecer el nivel de recursión? Mira esto :

httrack URL_EL_SITIO -O /tmp/tallas-de-zapatos -r50

En este ejemplo, limitamos la profundidad directa a 50 niveles de profundidad. Como regla general, los sitios web no superan los 20 niveles y, si lo piensa bien, si solo hay 2 subdirectorios por nivel de directorio, una estructura de directorios de 50 de profundidad tendría alrededor de 10 billones de directorios. Por supuesto, muchos sitios tienen una pequeña cantidad de archivos a muchos niveles de profundidad en una estructura de directorios por varias razones. En algunos casos, un enlace simbólico también provocará una repetición infinita de niveles de directorio, por lo que puede ser recomendable establecer un límite.

-----De lo contrario--- VisualWget debería ayudarlo a hacer esto. Establecer la profundidad/nivel de la recursividad debería ayudarlo.

Manual de terceros de VisualWget

Sin embargo, el enlace a VisualWget está roto en ese manual. Googlea un poco y deberías encontrar el verdadero. Actualizaré esto un poco más tarde. (Lo usé ayer en casa).