Herramientas para capturar y convertir la web

Crear un verificador de enlaces personalizado

Este ejemplo también está disponible como plantilla.

GrabzIt's Web Scraper es muy flexible, lo que le permite realizar una variedad de tareas en línea, como verificar los enlaces de un sitio web e informar que no funcionan.

Lo primero que debe hacer es crear un raspar y asigne el sitio web de destino que desea verificar, luego use el siguiente código para las instrucciones de raspado.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

La primera linea var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); extrae todas las URL de hiperv√≠nculo y las coloca en el urls variable. La siguiente l√≠nea usa el Utility.Array.unique m√©todo para hacer que todas las URL sean √ļnicas.

La tercera línea asegura que los enlaces no se verifiquen dos veces para hacer esto, leemos las URL que anteriormente saved y filtrar los enlaces extraídos por esto. Si desea que se grabe un enlace en cada página, elimine esta línea.

Después de que se hayan limpiado los datos de la URL, recorremos cada URL restante, guardándola en el conjunto de datos junto con la página actual, antes de verificar si la URL existe usando el Utility.URL.exists método. El resultado de esta verificación es también saved en el conjunto de datos.

Alternativamente, puede verificar si existen imágenes de un sitio web reemplazando el código Page.getTagAttributes('href', {"tag":{"equals":"a"}}); con Page.getTagAttributes('src', {"tag":{"equals":"img"}});.