Herramientas para capturar y convertir la web

¿Cómo descargar un sitio web y todo su contenido?

Sitio Web

Hay algunos casos en los que es importante descargar un sitio web completo, no solo el resultado final. Pero páginas web HTML, recursos como CSS, scripts e imágenes.

Esto tal vez porque desea una copia de seguridad del código, pero por alguna razón ya no puede acceder a la fuente original. O quizás desee un registro detallado de cómo ha cambiado un sitio web con el tiempo.

Afortunadamente, GrabzIt's Web Scraper puede lograr esto al rastrear todas las páginas web de un sitio web. Luego, en cada página web, el raspador descarga el HTML junto con los recursos a los que se hace referencia en la página.

Crear un Scrape para descargar un sitio web completo

Para facilitar la descarga de su sitio web, GrabzIt proporciona una plantilla de raspado. Simplemente haga clic en esto enlace de plantilla para empezar.

Una vez que haya hecho clic, se creará su raspado. A continuación, ve al Sitios web de destino pestaña e ingrese la URL del sitio web para descargar en el URL de destino caja de texto. Luego haga clic Asignar objetivo y espera un segundo o dos.

Omitir el Instrucciones de raspado y Opciones de exportación pestaña e ir directamente a la Programar raspado lengüeta. Luego puedes hacer clic Actualizar para comenzar el raspado. Sin embargo, si desea configurar el scrape para que se ejecute en un horario regular, por ejemplo, para crear copias de seguridad regulares de un sitio web. Luego simplemente haga clic en el Repetir raspar casilla de verificación y luego seleccione con qué frecuencia desea que se repita el raspado.

Usando su sitio web descargado

Una vez que el raspado haya terminado, obtendrá un archivo ZIP. A continuación, extraiga el archivo ZIP y en el interior ubicado en un directorio llamado Archivos estarán todas las páginas web descargadas y los recursos del sitio web. También habrá una página HTML especial llamada data.html en la raíz del directorio. Abra este archivo en un navegador web y encontrará una tabla HTML con tres columnas:

  • URL de recurso: esta es la URL en la que el raspador web encontró el recurso. Entonces, por ejemplo: http://www.example.com/logo.jog
  • Tipo de recurso: este es el tipo de recurso que se descargó. Hay cuatro tipos de recursos.
    • Página web
    • Imagen
    • Recurso externo: cualquier recurso descargado desde una etiqueta de enlace
    • Guión
  • Nuevo nombre de archivo: el nuevo nombre de archivo que el recurso ha sido saved debajo. Tenga en cuenta que esta columna también contiene un enlace al archivo, lo que facilita mucho la inspección de todos los recursos descargados.

Este archivo está diseñado para ayudarlo a asignar los nuevos nombres de archivo a sus ubicaciones anteriores. Esto es necesario porque una URL no se puede asignar directamente a una estructura de archivo, ya que una URL puede ser demasiado grande para almacenarse directamente en la ruta del archivo.

También puede haber muchas permutaciones, especialmente cuando una página web puede representar una gran cantidad de contenido diferente al cambiar varias consultas string parámetros! Por lo tanto, almacenamos el sitio web en una estructura plana en la carpeta de archivos y le damos el archivo data.html para asignar estos archivos a la estructura original.

Por supuesto, debido a esto, no puede abrir una página HTML descargada y esperar ver la página web que vio en la web. Para hacer esto, necesitaría reescribir las rutas de la imagen, el script y los recursos CSS, etc. para que el archivo HTML pueda encontrarlos en su estructura de archivos local.

Otro archivo que se incluirá en la raíz del archivo ZIP se llama Website.csv. Contiene exactamente la misma información que el archivo data.html. Sin embargo, esto se incluye en caso de que desee leer y procesar la descarga del sitio web mediante programación, quizás utilizando la asignación de las URL a los archivos para recrear el sitio web descargado.