Quiero descargar cada archivo (a través de HTTP, HTTPS y FTP, HTML, PHP tal como se entrega, JS, CSS, PDF vinculado, imágenes) de un dominio, sus subdominios, cada dominio vinculado desde las páginas mencionadas anteriormente y sus subdominios.
En caso de que no esté claro qué es exactamente lo que espero, proporcioné un ejemplo en el que querría todo excepto el contenido de "unrelated.com". No pude encontrar un rastreador que me permitiera hacer eso.
Preferiría un rastreador operado por línea de comandos de Linux que pueda ejecutar desde mi VPS. Podría vivir con Linux+GUI pero no tengo Windows, Android o cualquier dispositivo/SO de Apple.
Un software que genere los enlaces por página en una lista fácilmente analizable también sería suficiente, luego podría escribir un script de shell para seleccionar qué enlace descargar.
Cambiar los enlaces en el código HTML (especialmente aquellos que apuntan a diferentes dominios) para que apunten a mis archivos locales sería bueno pero no es necesario.
La biblioteca Python Scrapy puede hacer exactamente lo que está buscando:
Scrapy y Python son herramientas gratuitas, de código abierto y multiplataforma.
ivanivan
wget
y sus opciones de duplicación? Piense que puede hacer la mayor parte de lo que está pidiendo y ya debería estar instalado en la mayoría de los sistemas Linux.