Herramientas para capturar y convertir la web

¿Cómo descargar un sitio web y todo su contenido?

Sitio Web

Hay algunos casos en los que es importante descargar un sitio web completo, no solo el resultado final. Pero páginas web HTML, recursos como CSS, scripts e imágenes.

Esto tal vez porque desea una copia de seguridad del código, pero por alguna razón ya no puede acceder a la fuente original. O quizás desee un registro detallado de cómo ha cambiado un sitio web con el tiempo.

Afortunadamente, GrabzIt's Web Scraper puede lograr esto al rastrear todas las páginas web de un sitio web. Luego, en cada página web, el raspador descarga el HTML junto con los recursos a los que se hace referencia en la página.

Crear un Scrape para descargar un sitio web completo

Para facilitar la descarga de su sitio web, GrabzIt proporciona una plantilla de raspado.

Para empezar cargar esta plantilla.

Luego ingrese su URL de destino, esta URL se verifica automáticamente en busca de errores y se realizan los cambios necesarios. Mantener el Iniciar automáticamente el raspado casilla marcada, y su raspado se iniciará automáticamente.

Personalizando tu Scrape

Si desea modificar la plantilla, desactive la casilla Iniciar automáticamente el raspado caja. Una modificación sería ejecutar el raspado en un horario regular, por ejemplo, para crear copias regulares de un sitio web. Sobre el Programar raspado pestaña, simplemente haga clic en el Repetir raspar casilla de verificación y luego seleccione con qué frecuencia desea que se repita el raspado. Luego haga clic Noticias para comenzar el raspado.

Usando su sitio web descargado

Una vez que el raspado haya terminado, obtendrá un archivo ZIP. A continuación, extraiga el archivo ZIP y en el interior ubicado en un directorio llamado Archivos estarán todas las páginas web descargadas y los recursos del sitio web. También habrá una página HTML especial llamada data.html en la raíz del directorio. Abra este archivo en un navegador web y encontrará una tabla HTML con tres columnas:

  • URL de recurso: esta es la URL en la que el raspador web encontró el recurso. Entonces, por ejemplo: http://www.example.com/logo.jog
  • Tipo de recurso: este es el tipo de recurso que se descargó. Hay cuatro tipos de recursos.
    • Página web
    • Imagen
    • Recurso externo: cualquier recurso descargado desde una etiqueta de enlace
    • Guión
  • Nuevo nombre de archivo: el nuevo nombre de archivo que el recurso ha sido saved debajo. Tenga en cuenta que esta columna también contiene un enlace al archivo, lo que facilita mucho la inspección de todos los recursos descargados.

Este archivo está diseñado para ayudarlo a asignar los nuevos nombres de archivo a sus ubicaciones anteriores. Esto es necesario porque una URL no se puede asignar directamente a una estructura de archivo, ya que una URL puede ser demasiado grande para almacenarse directamente en la ruta del archivo.

También puede haber muchas permutaciones, especialmente cuando una página web puede representar una gran cantidad de contenido diferente al cambiar varias consultas string parámetros! Por lo tanto, almacenamos el sitio web en una estructura plana en la carpeta de archivos y le damos el archivo data.html para asignar estos archivos a la estructura original.

Por supuesto, debido a esto, no puede abrir una página HTML descargada y esperar ver la página web que vio en la web. Para hacer esto, necesitaría reescribir las rutas de la imagen, el script y los recursos CSS, etc. para que el archivo HTML pueda encontrarlos en su estructura de archivos local.

Otro archivo que se incluirá en la raíz del archivo ZIP se llama Website.csv. Contiene exactamente la misma información que el archivo data.html. Sin embargo, esto se incluye en caso de que desee leer y procesar la descarga del sitio web mediante programación, quizás utilizando la asignación de las URL a los archivos para recrear el sitio web descargado.