Herramientas para capturar y convertir la web

Documentación de Web Scraper

Este es un resumen de nuestros métodos especiales de instrucción de raspado que ponemos a disposición a través de nuestro raspador web.

Criterios.aplicar (matriz)

Elimina cualquier elemento en la misma ubicación que los elementos eliminados por operaciones anteriores en este criterio de la matriz suministrada.

  • array: obligatorio, el array al que aplicar los cambios.

Criterios ascendentes (valores)

Devuelve los valores en orden ascendente.

  • valores: necesarios, pase una matriz que desee ordenar en orden ascendente.

Criterios.contains (agujas, valor)

Devuelve solo los elementos de la matriz de agujas que contiene el valor especificado.

  • agujas - requerido, la matriz para filtrar.
  • valor: requerido, los elementos de valor deben estar contenidos.

Criteria.create (array)

Crea un nuevo criterio listo para realizar operaciones en una nueva matriz.

  • array: obligatorio, el conjunto de columnas a las que se aplican los cambios.

  • Criterios descendentes (valores)

    Devuelve los valores en orden descendente.

    • valores: necesarios, pase una matriz que desee ordenar en orden descendente.

    Criterios iguales (agujas, valor)

    Devuelve solo elementos en la matriz de agujas que es igual al valor especificado.

    • agujas - requerido, la matriz para filtrar.
    • valor: requerido, los elementos de valor deben ser iguales a.

    Criteria.extract (matriz, patrón)

    Devuelve todos los elementos de la matriz que con cualquier coincidencia recortada según el patrón especificado.

    • array: obligatorio, el array para recortar coincidencias.
    • patrón: requerido, el patrón define cómo recortar la parte deseada del texto devuelto. El valor a recortar se indica mediante {{VALOR}} en el patrón.
      Por ejemplo, para recortar la edad de 'Mi edad es 33'. el patrón "Mi edad es {{VALOR}}". Sería usado.

    Criteria.greaterThan (agujas, valor)

    Devuelve los únicos elementos en la matriz de agujas que son mayores que el valor especificado.

    • agujas - requerido, la matriz para filtrar.
    • valor: requerido, los elementos de valor deben ser mayores que.

    Criteria.keep (agujas, pajar)

    Devuelve la matriz de agujas después de mantener las coincidencias encontradas en la matriz de pajar.

    • agujas - requerido, la matriz para filtrar.
    • pajar - requerido, la matriz a usar para guardar las agujas.

    Criteria.lessThan (agujas, valor)

    Devuelve los únicos elementos en la matriz de agujas que son menores que el valor especificado.

    • agujas - requerido, la matriz para filtrar.
    • valor: requerido, los elementos de valor deben ser menores que.

    Criteria.limit (valores, límite)

    Devuelve los primeros n valores, donde n es la variable límite.

    • valores: necesarios, pase una matriz que desee limitar.
    • límite: requerido, el número de valores que desea devolver de la matriz.

    Criteria.notEquals (agujas, valor)

    Devuelve los únicos elementos en la matriz de agujas que NO son iguales al valor especificado.

    • agujas - requerido, la matriz para filtrar.
    • valor: requerido, los elementos de valor NO deben ser iguales.

    Criterios de eliminación (agujas, pajar)

    Devuelve la matriz de agujas después de eliminar las coincidencias encontradas en la matriz de pajar.

    • agujas - requerido, la matriz para filtrar.
    • pajar: se requiere, la matriz que se usará para quitar las agujas.

    Criteria.repeat (array)

    Repita los elementos en la matriz hasta que coincida con la longitud de la columna más larga.

    • array: requerido, el array para repetir.

    Criterios únicos (agujas)

    Devuelve solo los valores únicos de la matriz de agujas.

    • agujas: obligatorio, pase una matriz de la que desea eliminar todos los valores duplicados.

    Data.countFilesDownloaded ()

    Cuente el número total de archivos descargados.


    Data.log (mensaje)

    Escribe un mensaje en el registro de raspado.

    • mensaje - requerido, el mensaje para escribir en el registro.

    Data.pad (padValue, dataSet)

    Rellena todas las columnas presentes en los conjuntos de datos agregando celdas vacías al final de las columnas hasta que todas las columnas de un conjunto de datos en particular tengan el mismo número de celdas.

    • padValue - opcional, el valor para rellenar las celdas con. Si no se especifica ninguno, se utiliza un valor vacío.
    • conjunto de datos - opcional, el conjunto de datos para rellenar.

    Data.readColumn (conjunto de datos, columna)

    Lee una columna de la columna especificada del conjunto de datos especificado.

    • conjunto de datos - opcional, el conjunto de datos para leer el valor.
    • columna opcional, la columna del conjunto de datos para leer el valor.

    Data.save(valors, conjunto de datos, columna)

    Saves cualquier valor o valores para el conjunto de datos y la columna especificada.

    • valor: requerido, pase cualquier valor o conjunto de valores que desee save.
    • conjunto de datos - opcional, el conjunto de datos a save el valor into.
    • columna opcional, la columna en el conjunto de datos a save el valor into.

    Data.saveDOCXScreenshot (htmlOrUrls, opciones, conjunto de datos, columna)

    Tome una captura de pantalla DOCX de HTML, URL o URL y, opcionalmente, coloque un enlace al archivo en el conjunto de datos y la columna especificada.

    • url: obligatorio, pase cualquier url o conjunto de URL de las que desee tomar una captura de pantalla DOCX.
    • opciones - opcional, opciones de captura de pantalla.
    • conjunto de datos - opcional, el conjunto de datos a save el enlace de captura de pantalla DOCX into.
    • columna opcional, la columna en el conjunto de datos a save el enlace de captura de pantalla DOCX into.

    Data.saveImageScreenshot (htmlOrUrls, opciones, conjunto de datos, columna)

    Tome una captura de pantalla de imagen de HTML, URL o URL y, opcionalmente, coloca un enlace al archivo en el conjunto de datos y la columna especificada.

    • url: obligatorio, pase cualquier url o conjunto de URL de las que desea tomar una captura de pantalla de imagen.
    • opciones - opcional, opciones de captura de pantalla.
    • conjunto de datos - opcional, el conjunto de datos a save el enlace de captura de pantalla de imagen into.
    • columna opcional, la columna en el conjunto de datos a save el enlace de captura de pantalla de imagen into.

    Data.savePDFScreenshot (htmlOrUrls, opciones, conjunto de datos, columna)

    Tome una captura de pantalla PDF de HTML, URL o URL y, opcionalmente, coloca un enlace al archivo en el conjunto de datos y la columna especificada.

    • url: obligatorio, pase cualquier url o conjunto de url de las que desea tomar una captura de pantalla en PDF.
    • opciones - opcional, opciones de captura de pantalla.
    • conjunto de datos - opcional, el conjunto de datos a save el enlace de captura de pantalla PDF into.
    • columna opcional, la columna en el conjunto de datos a save el enlace de captura de pantalla PDF into.

    Data.saveTableScreenshot (htmlOrUrls, opciones, conjunto de datos, columna)

    Tome una captura de pantalla de la tabla de HTML, URL o URL y, opcionalmente, coloca un enlace al archivo en el conjunto de datos y la columna especificada.

    • url: obligatorio, pase cualquier url o conjunto de URL de las que desea tomar una captura de pantalla de la tabla.
    • opciones - opcional, opciones de captura de pantalla.
    • conjunto de datos - opcional, el conjunto de datos a save el enlace de captura de pantalla de la tabla into.
    • columna opcional, la columna en el conjunto de datos a save el enlace de captura de pantalla de la tabla into.

    Data.saveArchivo (urls, nombre de archivo, conjunto de datos, columna)

    Saves cualquier URL o URL como un archivo y, opcionalmente, coloca un enlace al archivo en el conjunto de datos y la columna especificada.

    • url: obligatorio, pasar cualquier URL o conjunto de URL que desee convertir into archivo (s).
    • nombre del archivo - opcional, pase cualquier nombre de archivo que desee usar en lugar del generado.
    • dataSet: opcional, el conjunto de datos para save el enlace del archivo into.
    • columna opcional, la columna en el conjunto de datos a save el enlace del archivo into.

    Data.saveToFile (datos, nombre de archivo, conjunto de datos, columna)

    Saves cualquier dato o elemento de datos como un archivo y, opcionalmente, coloca un enlace al archivo en el conjunto de datos y la columna especificada.

    • datos: requerido, pase cualquier dato o conjunto de datos que desee save en un archivo (s).
    • nombre del archivo - opcional, pase cualquier nombre de archivo que desee usar en lugar del generado.
    • dataSet: opcional, el conjunto de datos para save el enlace del archivo into.
    • columna opcional, la columna en el conjunto de datos a save el enlace del archivo into.

    Data.saveValor únicos, conjunto de datos, columna)

    Saves cualquier valor o valores únicos para el conjunto de datos y la columna especificada. Se ignoran los valores duplicados en el mismo conjunto de datos y columna.

    • valor: requerido, pase cualquier valor o conjunto de valores que desee save.
    • conjunto de datos - opcional, el conjunto de datos a save el valor into.
    • columna opcional, la columna en el conjunto de datos a save el valor into.

    Data.saveUniqueFile (urls, nombre de archivo, conjunto de datos, columna)

    Saves cualquier URL o URL como un archivo y, opcionalmente, coloca un enlace al archivo en el conjunto de datos y la columna especificada. Este método solo save valores únicos para el conjunto de datos y la columna especificada, o si no hay URL únicos para el conjunto de datos y la columna para todo el scrape.

    • url: obligatorio, pasar cualquier URL o conjunto de URL que desee convertir into archivo (s).
    • nombre del archivo - opcional, pase cualquier nombre de archivo que desee usar en lugar del generado.
    • conjunto de datos - opcional, el conjunto de datos a save el enlace del archivo into.
    • columna opcional, la columna en el conjunto de datos a save el enlace del archivo into.

    Data.saveVideoAnimation (videoUrls, opciones, conjunto de datos, columna)

    Convertir un video o videos en línea into GIF (s) animado (s), y opcionalmente pone un enlace al archivo en el conjunto de datos y la columna especificada.

    • videoUrl: requerido, pase cualquier url de video o conjunto de urls que desee convertir into GIF (s) animado (s).
    • opciones - opcional, opciones de animación.
    • conjunto de datos - opcional, el conjunto de datos a save el enlace de animación into.
    • columna opcional, la columna en el conjunto de datos a save el enlace de animación into.

    Global.get (nombre)

    Obtiene un saved valor variable.

    • nombre - requerido, el nombre de la variable a devolver.

    Global.set (nombre, valorspersistir)

    Saves cualquier valor o valores entre páginas raspadas.

    • nombre - requerido, el nombre de la variable a save.
    • valor - requerido, el valor variable a save.
    • persistir - opcional, si es verdadero, la variable se mantendrá entre raspaduras.

    Navigation.addTemplate (urls, modelo)

    Defina la URL o las URL como pertenecientes a la plantilla especificada. Esto permite que las instrucciones de raspado se limiten a ejecutarse solo en ciertas URL.

    • url: obligatorio, pase cualquier url o conjunto de URL para las que desee definir una plantilla.
    • plantilla: requerida.

    Navigation.clearCookies ()

    Elimine todas las cookies para el raspado actual.


    Navigation.navigate (filtro, plantilla)

    Haga clic en uno o más elementos HTML.

    • filtro - requerido, el filtro utilizado para identificar en qué elemento (s) HTML hacer clic.
    • plantilla: la plantilla para asignar al navegar al elemento HTML seleccionado.

    Navigation.goTo (url)

    Vaya inmediatamente a la URL especificada.

    • url - requerido, la URL para navegar.

    Navigation.hover (filtro)

    Desplácese sobre uno o más elementos HTML.

    • filtro: requerido, el filtro utilizado para identificar qué elemento (s) HTML se debe pasar.

    Navigation.isTemplate (plantilla)

    Devuelve verdadero si la página actual pertenece a la plantilla especificada.

    • template: obligatorio, la plantilla para verificar si la página pertenece.

    Navigation.paginate (filtro, segundos)

    Pagina a través de los elementos especificados.

    • filtro: requerido, el filtro utilizado para identificar qué elemento (s) HTML se debe paginar.
    • segundos: requerido, el número de segundos entre los resultados paginados.

    Navigation.remove (filtro)

    Eliminar uno o más elementos HTML.

    • filtro: requerido, el filtro utilizado para identificar qué elemento (s) HTML eliminar.

    Navigation.scroll (filtro)

    Desplazar un elemento seleccionado o toda la página web.

    • filtro: opcional, el filtro utilizado para identificar qué elemento desplazar, si no se proporciona, se desplazará toda la página web.

    Navigation.select (valors, filtro)

    Seleccione uno o más valores válidos en un elemento seleccionado.

    • valor: requerido, uno o más valores para seleccionar.
    • filtro: requerido, el filtro utilizado para identificar qué elemento de selección seleccionar.

    Navigation.stopScraping (abortar)

    Deja de raspar de inmediato.

    • abortar: opcional, si es verdadero, detenga el procesamiento y no exporte ni transmita ningún resultado.

    Navigation.type (textos, filtro)

    Teclee el texto intun elemento

    • texto: obligatorio, uno o más elementos de texto para escribir.
    • filtro: requerido, el filtro utilizado para identificar qué elemento escribir into.

    Navigation.wait (segundos)

    Espere unos segundos antes de continuar. Esto es más útil cuando se usa este clic, seleccionar y escribir comandos.

    • segundos - requerido, el número de segundos a esperar.

    Page.contains (buscar, atributo, filtro)

    Devuelve verdadero si la página contiene el texto para buscar.

    • find: requerido, el texto a buscar.
    • atributo: opcional, el atributo para buscar.
    • filtro: opcional, el filtro utilizado para identificar en qué elemento buscar.

    Page.exists (filtro)

    Devuelve verdadero si la página contiene un elemento que coincide con el filtro de búsqueda.

    • filtro: requerido, el filtro utilizado para identificar qué elemento buscar.

    Page.getAuthor ()

    Obtiene el autor de la página si se especifica uno.


    Page.getDescription ()

    Obtiene la descripción de la página si se especifica una.


    Page.getFavIconUrl ()

    Obtiene la URL FavIcon de la página.


    Page.getHtml ()

    Obtiene la página sin formato HTML.


    Page.getKeywords ()

    Obtiene las palabras clave de la página que se está raspando.


    Page.getLastModified ()

    Obtiene la hora en que la página web se modificó por última vez, ya sea desde los metadatos de la página o desde los encabezados de respuesta.


    Page.getPageNumber ()

    Obtiene el número de página de la URL actual que se está raspando.


    Page.getPreviousUrl (índice)

    Obtiene la URL anterior, un -1 indica la última URL, mientras que un número inferior indica una URL anterior.

    • index - opcional, el índice de la página anterior para devolver. El valor predeterminado es -1.

    Page.getTagAttribute (atributo, filtro)

    Devuelve el valor del atributo coincidente.

    • atributo - requerido, el atributo a buscar.
    • filtro: opcional, el filtro utilizado para identificar qué elemento buscar.

    Page.getTagAttributes (atributo, filtro, vinculado a)

    Devuelve los valores CSS coincidentes.

    • atributo - requerido, el atributo CSS para buscar.
    • filtro: opcional, el filtro utilizado para identificar qué elemento buscar.
    • LinkedTo - opcional, por la columna a la que se debe vincular, para que los valores relativos se mantengan juntos.

    Page.getTagCSSAttribute (atributo, filtro)

    Devuelve el valor CSS coincidente.

    • atributo - requerido, el atributo CSS para buscar.
    • filtro: opcional, el filtro utilizado para identificar qué elemento buscar.

    Page.getTagCSSAttributes (atributo, filtro, vinculado a)

    Devuelve los valores de atributo coincidentes.

    • atributo - requerido, el atributo a buscar.
    • filtro: opcional, el filtro utilizado para identificar qué elemento buscar.
    • LinkedTo - opcional, por la columna a la que se debe vincular, para que los valores relativos se mantengan juntos.

    Page.getTagValue (filtro)

    Devuelve el valor del elemento coincidente.

    • filtro: opcional, el filtro utilizado para identificar qué elemento (s) buscar.

    Page.getTagValues ​​(filtro, vinculado a)

    Devuelve los valores de los elementos coincidentes.

    • filtro: opcional, el filtro utilizado para identificar qué elemento (s) buscar.
    • LinkedTo - opcional, por la columna a la que se debe vincular, para que los valores relativos se mantengan juntos.

    Page.getText ()

    Obtiene el texto visible de la página.


    Page.getTitle ()

    Obtiene el título de la página.


    Page.getUrl ()

    Obtiene la URL de la página.


    Page.getValueXPath (xpath)

    Devuelve el valor que coincide con el XPATH proporcionado.

    • xpath: obligatorio, XPATH para que coincida con el valor o atributo del elemento.

    Page.getValuesXPath (xpath)

    Devuelve los valores que coinciden con el XPATH proporcionado.

    • xpath: obligatorio, XPATH para que coincida con los valores o atributos del elemento.

    Page.valid ()

    Devuelve verdadero si la URL que se está eliminando actualmente es una página web válida.


    Utility.Array.clean (valors)

    Devuelve todos los valores no nulos y vacíos de la matriz de valores.

    • valores - requeridos, pase cualquier conjunto de valores para limpiar.

    Utility.Array.contains (valors)

    Devuelve verdadero si la aguja está en la matriz de pajar.

    • aguja: requerida, pase cualquier valor o conjunto de valores para encontrar.
    • pajar - requerido, la matriz para buscar la aguja o agujas.

    Utility.Array.merge (array1, array2)

    Fusiona dos matrices into uno que reemplaza un valor vacío o nulo con un valor de la segunda matriz. Ambas matrices deben ser del mismo tamaño.

    • array1: obligatorio, pasar una matriz de valores para fusionar.
    • array2: obligatorio, pasar una matriz de valores para fusionar.

    Utility.Array.unique (valors)

    Devuelve los valores únicos de la matriz de valores.

    • valores - requeridos, pase cualquier conjunto de valores para hacerlos únicos.

    Utility.Text.extractAddress (texto)

    Extrae la primera dirección de correo electrónico dentro del parámetro de texto especificado.

    • texto: requerido, el texto del cual extraer una dirección de correo electrónico.

    Utility.Text.extractAddresses (texto)

    Extrae todas las direcciones de correo electrónico dentro del parámetro de texto especificado.

    • texto: requerido, el texto para extraer todas las direcciones de correo electrónico.

    Utility.Text.extractLocation (texto, idioma)

    Extrae automáticamente la primera ubicación desde el parámetro de texto especificado.

    • texto: obligatorio, el texto del que extraer la ubicación.
    • idioma: opcional, el idioma del texto que se extraerá en el formato ISO 639-1 de dos letras. El valor predeterminado es 'en'. Use 'auto' para intentar detectar automáticamente el idioma del texto.

    Utility.Text.extractLocations (texto, idioma)

    Extrae automáticamente ubicaciones del parámetro de texto especificado.

    • texto: requerido, el texto para extraer ubicaciones de.
    • idioma: opcional, el idioma del texto que se extraerá en el formato ISO 639-1 de dos letras. El valor predeterminado es 'en'. Use 'auto' para intentar detectar automáticamente el idioma del texto.

    Utility.Text.extractLanguageName (texto)

    Extrae automáticamente el idioma especificado dentro del parámetro de texto.

    • texto - requerido, el texto para extraer el idioma.

    Utility.Text.extractLanguageCode (texto)

    Extrae automáticamente el idioma especificado dentro del parámetro de texto.

    • texto - requerido, el texto para extraer el idioma.

    Utility.Text.extractName (texto, idioma)

    Extrae automáticamente el primer nombre del parámetro de texto especificado.

    • texto - requerido, el texto del cual extraer el nombre.
    • idioma: opcional, el idioma del texto que se extraerá en el formato ISO 639-1 de dos letras. El valor predeterminado es 'en'. Use 'auto' para intentar detectar automáticamente el idioma del texto.

    Utility.Text.extractNames (texto, idioma)

    Extrae automáticamente los nombres del parámetro de texto especificado.

    • texto - requerido, el texto del cual extraer el nombre.
    • idioma: opcional, el idioma del texto que se extraerá en el formato ISO 639-1 de dos letras. El valor predeterminado es 'en'. Use 'auto' para intentar detectar automáticamente el idioma del texto.

    Utility.Text.extractOrganization (texto, idioma)

    Extrae automáticamente la primera organización desde el parámetro de texto especificado.

    • texto - requerido, el texto del cual extraer la organización.
    • idioma: opcional, el idioma del texto que se extraerá en el formato ISO 639-1 de dos letras. El valor predeterminado es 'en'. Use 'auto' para intentar detectar automáticamente el idioma del texto.

    Utility.Text.extractOrganizations (texto, idioma)

    Extrae automáticamente organizaciones de dentro del parámetro de texto especificado.

    • texto - requerido, el texto para extraer organizaciones de.
    • idioma: opcional, el idioma del texto que se extraerá en el formato ISO 639-1 de dos letras. El valor predeterminado es 'en'. Use 'auto' para intentar detectar automáticamente el idioma del texto.

    Utility.Text.extractSentiment (texto)

    Extrae automáticamente el sentimiento desde el parámetro de texto especificado.

    • texto - requerido, el texto del cual extraer el sentimiento.

    Utility.Image.extractText (urls, idioma)

    Intenta utilizar el reconocimiento óptico de caracteres para extraer texto de cualquier imagen especificada.

    • url - requerido, pase cualquier URL o conjunto de URL de imágenes de las que desea extraer texto.
    • idioma: opcional, el idioma del texto que se extraerá en el formato ISO 639-1 de dos letras. El valor predeterminado es 'en'.

    Utility.URL.addQueryStringParámetro (urls, valor clave)

    Agregar una consultastring parámetro a cualquier URL o URL.

    • url: obligatorio, pase cualquier URL o conjunto de URL a las que desee agregar una consulta string parámetro a.
    • clave: requerida, la clave del parámetro a agregar.
    • valor - requerido, el valor del parámetro a agregar.

    Utility.URL.getQueryStringParámetro (urls, llave)

    Obtiene el valor de una consultastring parámetro de cualquier URL o URL.

    • url: obligatorio, pase cualquier URL o conjunto de URL que desee para leer la consultastring parámetro de.
    • clave: requerida, la clave del parámetro a leer.

    Utility.URL.removeQueryStringParámetro (urls, llave)

    Eliminar una consultastring parámetro de cualquier URL o URL.

    • url: obligatorio, pasar cualquier URL o conjunto de URL que desee eliminar una consultastring parámetro de.
    • clave: obligatoria, la clave del parámetro que se eliminará.

    Utility.URL.exists (urls)

    Compruebe si la URL o las URL realmente existen llamando a cada URL.

    • url: obligatorio, pase cualquier URL o conjunto de URL que desee verificar que existan.