Herramientas para capturar y convertir la web

Extraer enlaces de un sitio web

Este ejemplo también está disponible como plantilla.

Una tarea com√ļn es extraer enlaces de un sitio web, espec√≠ficamente enlaces HTML. Afortunadamente, esto es f√°cil cuando se usa GrabzIt's Web Scraper. En primer lugar, cree un nuevo raspado con los detalles normales, como la p√°gina de inicio del raspado y cualquier otra opci√≥n.

Luego ve al Instrucciones de raspado ficha y haga clic en el Bot√≥n de p√°gina web bot√≥n. Esto ingresar√° al Page palabra clave into las instrucciones de raspado y se abrir√° un men√ļ desplegable. Seleccionar getTagAttributes de la lista. Siguiente agregar 'href' como primer par√°metro, esto le dice al Web Scraper que extraiga el atributo href, luego escriba una coma.

Luego haga clic en Bot√≥n de filtro esto le permite decirle al Web Scraper de qu√© elementos extraer el atributo href. En la ventana de filtro, aseg√ļrese de que el tipo est√© configurado en 'P√°gina web' y la restricci√≥n sea 'nombre de etiqueta' e 'igual a'. Luego ingrese a en el cuadro de texto y luego haga clic en el bot√≥n Agregar y luego en el bot√≥n Insertar filtro. Termine la instrucci√≥n agregando un punto y coma al final de la l√≠nea.

Deberías quedarte con algo como lo que se muestra a continuación.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

El c√≥digo anterior extraer√° todas las URL de enlace de la p√°gina web, pero ahora necesitamos save esas URL de enlace. Para hacer esto, envolveremos este comando menos el punto y coma en un Data.save mando. Para hacerlo, vaya al comienzo de la l√≠nea y seleccione el Bot√≥n de datos bot√≥n. Luego, en el men√ļ desplegable, seleccione save, luego vaya al final de la l√≠nea y agregue una coma. Luego agregue lo que desea llamar al conjunto de datos como 'Mi sitio web', luego agregue otra coma y luego agregue otro par√°metro para describir la columna como 'Enlaces' y luego cierre el comando con un ) antes del punto y coma.

Ahora debería tener las siguientes instrucciones de raspado.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

Ahora, si ejecuta el raspado, extraerá todos los enlaces del sitio web. Esto creará una tabla con el nombre de Mis sitios web, con un nombre de columna de Enlaces que luego se puede exportar into muchos formatos diferentes como XML, CSV o una hoja de cálculo. Este tutorial también podría haberse logrado utilizando el botón del asistente en la barra de herramientas de Instrucciones de Scrape.