GrabzIt's Web Scraper es muy flexible, lo que le permite realizar una variedad de tareas en línea, como verificar los enlaces de un sitio web e informar que no funcionan.
Lo primero que debe hacer es crear un raspar y asigne el sitio web de destino que desea verificar, luego use el siguiente código para las instrucciones de raspado.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
La primera linea var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
extrae todas las URL de hipervínculo y las coloca en el urls
variable. La siguiente línea usa el Utilidad.Array.única método para hacer que todas las URL sean únicas.
La tercera línea asegura que los enlaces no se verifiquen dos veces para hacer esto, leemos las URL que anteriormente saved y filtrar los enlaces extraídos por esto. Si desea que se grabe un enlace en cada página, elimine esta línea.
Después de que se hayan limpiado los datos de la URL, recorremos cada URL restante, guardándola en el datos junto con la página actual, antes de verificar si la URL existe usando el Utility.URL.exists
método. El resultado de esta verificación es también saved en el conjunto de datos.
Alternativamente, puede verificar si existen imágenes de un sitio web reemplazando el código Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.