Herramientas para capturar y convertir la web

Raspe las direcciones de correo electrónico de un sitio web

Los siguientes dos ejemplos son parte del mismo plantilla.

GrabzIt's Web Scraper proporciona varios métodos de utilidad especiales para facilitar la extracción de direcciones de correo electrónico de un sitio web. El siguiente ejemplo obtiene todo el contenido HTML de una página web y luego lo pasa a través de Utility.Text.extractAddresses método para encontrar todas las direcciones de correo electrónico válidas antes de guardar las direcciones intun conjunto de datos, que luego se envía al usuario.

Alternativamente, solo se puede extraer la primera dirección de correo electrónico coincidente utilizando el Utility.Text.extractAddress método.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

Raspe las direcciones de correo electrónico de documentos PDF

Los documentos PDF también se pueden raspar para direcciones de correo electrónico de forma similar a cómo se raspan las páginas web arriba. Como puede ver en el siguiente ejemplo, el proceso es exactamente el mismo, excepto que el PDF.getText() se usa el método en lugar de Page.getHtml() método.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Raspe las direcciones de correo electrónico de las imágenes

Grabz tiene la capacidad de extraer texto de imágenes Esto significa que esta capacidad también se puede aprovechar para extraer direcciones de correo electrónico de las imágenes. El siguiente ejemplo extrae cualquier dirección de correo electrónico de todas las imágenes en una página web.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

Mientras que las siguientes instrucciones de extracción extraen cualquier dirección de correo electrónico de imágenes encontradas en documentos PDF.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));