GrabzIt's Web Scraper proporciona varios métodos de utilidad especiales para facilitar la extracción de direcciones de correo electrónico de un sitio web. El siguiente ejemplo obtiene todo el contenido HTML de una página web y luego lo pasa a través de Utility.Text.extractAddresses
método para encontrar todas las direcciones de correo electrónico válidas antes de guardar las direcciones intun conjunto de datos, que luego se envía al usuario.
Alternativamente, solo se puede extraer la primera dirección de correo electrónico coincidente utilizando el Utility.Text.extractAddress
método.
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
Los documentos PDF también se pueden raspar para direcciones de correo electrónico de forma similar a cómo se raspan las páginas web arriba. Como puede ver en el siguiente ejemplo, el proceso es exactamente el mismo, excepto que el PDF.getText()
se usa el método en lugar de Page.getHtml()
método.
Data.save(Utility.Text.extractAddresses(PDF.getText()));
Grabz tiene la capacidad de extraer texto de imágenes Esto significa que esta capacidad también se puede aprovechar para extraer direcciones de correo electrónico de las imágenes. El siguiente ejemplo extrae cualquier dirección de correo electrónico de todas las imágenes en una página web.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
Mientras que las siguientes instrucciones de extracción extraen cualquier dirección de correo electrónico de imágenes encontradas en documentos PDF.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));