Herramientas para capturar y convertir la web

Extraer enlaces de un sitio web

Este ejemplo también está disponible como plantilla.

Una tarea común es extraer enlaces de un sitio web, específicamente enlaces HTML. Afortunadamente, esto es fácil cuando se usa GrabzIt's Web Scraper. En primer lugar, cree un nuevo raspado con los detalles normales, como la página de inicio del raspado y cualquier otra opción.

Luego ve al Instrucciones de raspado ficha y haga clic en el Botón de página web botón. Esto ingresará al Page palabra clave into las instrucciones de raspado y se abrirá un menú desplegable. Seleccionar getTagAttributes de la lista. Siguiente agregar 'href' como primer parámetro, esto le dice al Web Scraper que extraiga el atributo href, luego escriba una coma.

Luego haga clic en Botón de filtro esto le permite decirle al Web Scraper de qué elementos extraer el atributo href. En la ventana de filtro, asegúrese de que el tipo esté configurado en 'Página web' y la restricción sea 'nombre de etiqueta' e 'igual a'. Luego ingrese a en el cuadro de texto y luego haga clic en el botón Agregar y luego en el botón Insertar filtro. Termine la instrucción agregando un punto y coma al final de la línea.

Deberías quedarte con algo como lo que se muestra a continuación.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

El código anterior extraerá todas las URL de enlace de la página web, pero ahora necesitamos save esas URL de enlace. Para hacer esto, envolveremos este comando menos el punto y coma en un Data.save mando. Para hacerlo, vaya al comienzo de la línea y seleccione el Botón de datos botón. Luego, en el menú desplegable, seleccione save, luego vaya al final de la línea y agregue una coma. Luego agregue lo que desea llamar al conjunto de datos como 'Mi sitio web', luego agregue otra coma y luego agregue otro parámetro para describir la columna como 'Enlaces' y luego cierre el comando con un ) antes del punto y coma.

Ahora debería tener las siguientes instrucciones de raspado.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

Ahora, si ejecuta el raspado, extraerá todos los enlaces del sitio web. Esto creará una tabla con el nombre de Mis sitios web, con un nombre de columna de Enlaces que luego se puede exportar into muchos formatos diferentes como XML, CSV o una hoja de cálculo. Este tutorial también podría haberse logrado utilizando el botón del asistente en la barra de herramientas de Instrucciones de Scrape.