Herramientas para capturar y convertir la web

¿Cómo extraer automáticamente información estructurada de texto no estructurado?

El texto escrito normal puede incluir mucha información que no es fácilmente extraíble. Por ejemplo, una oración puede ser una revisión sobre una empresa, pero ¿cómo saber si es buena o mala?

Un raspador web normal no podría extraer esta información. Sin embargo, GrabzIt puede hacerlo utilizando sus capacidades de procesamiento de lenguaje natural. Como se muestra en el siguiente ejemplo, el texto de la página se analiza y devuelve uno de los siguientes valores: Muy negativo, Negativo, Neutro, Positivo y Muy positivo.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

Aunque GrabzIt's Web Scraper puede extraer mucho más del texto, incluida la detección de idioma, nombres de ubicaciones, nombres de personas y nombres de organizaciones. Ejemplos de los cuales se muestran a continuación.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

No tiene que escribir ninguna de estas instrucciones de raspado usted mismo, ya que aparecerán automáticamente cuando seleccione un elemento HTML aplicable en nuestro asistente de raspador.