Herramientas para capturar y convertir la web

Documentación de Web Scraper

Para crear un raspado web, debe especificar cinco tipos de información, distribuidos en las siguientes pestañas.

  1. Opciones de raspado
  2. Sitios web de destino
  3. Instrucciones de raspado
  4. Opciones de exportación
  5. Programar raspado

Opciones de raspado

Todas las siguientes características están disponibles para personalizar un raspado web en la pestaña Opciones de raspado.

Scrape Name El nombre del raspado.

Seguir enlaces proporciona las siguientes opciones sobre cómo el raspador debe seguir los enlaces:

  • según sea necesario: la configuración predeterminada y la opción más segura, esto hará que el raspador solo siga los enlaces que se le indiquen
  • todas las páginas: el raspador seguirá cada enlace que encuentre
  • primera página: solo siga los enlaces que se encuentran en la primera página, especificados como destino
  • hasta n páginas de la página inicial: solo siga los enlaces en las páginas con el número especificado de clics desde la primera página
  • en marcos: siga los enlaces encontrados en marcos e iframes

Ignorar archivo Robots.txt si está configurado, el raspador puede visitar las páginas web que normalmente se excluyen del rastreo del propietario del sitio web.

Ignorar descargas de archivos una vez configurados los enlaces, que provocan la descarga de un archivo cuando se visitan no se descargan.

Ignorar duplicados si se configura, ignorará las páginas que sean iguales o superiores a la similitud que configuró, por ejemplo, podría ignorar las páginas que son 95% iguales.

Limite raspar le permite especificar cuántas páginas debe raspar el raspador web antes de detenerse.

Usar mi zona horaria si está configurado, indica que Web Scraper debería intentar convertir cualquier fecha que raspe into su zona horaria local. Su zona horaria se puede configurar en la página de la cuenta.

Ubicación la ubicación geográfica desde la que Web Scraper realizará el raspado. Esto podría ser útil si el sitio web de destino tiene restricciones basadas en la ubicación.

Formato de fecha predeterminado al convertir fechas en las que no se puede determinar el formato de fecha, Web Scraper en su lugar elegirá de forma predeterminada.

Retraso de carga de página Este es el tiempo en milisegundos que Web Scraper debe esperar antes de analizar una página. Esto es muy útil si una página contiene mucho AJAX o es lenta de cargar.

Sitios web de destino

Sitios web de destino

En la pestaña Sitios web de destino, especifique los sitios web de los que desea extraer datos. Para indicarle a la herramienta de extracción que extraiga datos de un sitio web, primero debe especificar la URL principal que es interested en eg http://www.example.com/shop/ Aquí es donde el raspador comenzará su raspado, puede ser una página web normal, un documento PDF, un documento XML, un documento JSON, un feed RSS o un mapa del sitio. Si no se trata de una página web o documento PDF, el raspador encontrará todos los enlaces en el archivo y visitará cada uno.

Para seguir solo los enlaces que se encuentran en la URL de destino y no en las páginas posteriores, puede configurar Seguir enlaces opción de raspado a en la primera página. Esto usará la URL de destino solo para sembrar el resto del raspado.

Por defecto, el raspador web sigue cada enlace que descubre en cada página web que visita. Si desea restringir qué enlaces Raspador web A continuación, una forma sencilla de hacer esto es especificar un patrón de URL. Esto funciona especificando una URL con el asterisco como comodín para indicar que cualquier carácter puede estar presente en esta parte del patrón. Por ejemplo http://www.example.com/*/articles/* eliminaría cualquier URL que tenga artículos como el segundo directorio desde la raíz del sitio web.

La URL también puede especificar una URL con parámetros para POST también, por ejemplo, un formulario de inicio de sesión. Para hacerlo, especifique la URL del formulario en el cuadro de texto URL de destino y agregue los parámetros de publicación necesarios para usar. Los valores de variables posteriores también pueden incluir variables especiales de GrabzIt, como:

  • {{day}} - día como un valor de dos dígitos
  • {{month}} - mes como valor de dos dígitos
  • {{year}} - año como valor de cuatro dígitos
  • {{hour}} - hora como valor de dos dígitos
  • {{minute}} - minuto como un valor de dos dígitos
  • {{second}} - segundo como un valor de dos dígitos

Finalmente puedes especificar URL de semillas para garantizar que esas URL se eliminen.

URL de semillas

Las URL de semillas permiten a un usuario especificar una lista de URL que debe rastrear el Web Scraper. Si solo desea raspar las URL de semilla, configure Seguir enlaces opciones de raspado a sin páginas en la pestaña Opciones de raspado.

Para configurar las URL de semillas en la pestaña Sitios web de destino, haga clic en el botón Agregar destino, luego marque la casilla de verificación Establecer URL de semillas y especifique cada URL para raspar en una línea separada.

Crear URL de origen a partir de una URL de plantilla

Alternativamente, puede generar automáticamente las URL iniciales utilizando una URL de plantilla, esta es una URL única que incluye una variable de URL. Una variable de URL especifica un rango de números para ser iterado.

{{start number|finish number|iterate number}}

  • número de inicio el número en el que comienza la variable URL
  • número final el número en el que termina la variable URL
  • número iterativo el número que la variable URL itera por

El número de inicio es el número en el que la variable de URL debe comenzar a contar, el número de finalización es el número en el que la variable de URL dejará de contar, el número de iteración es el número que aumentará el número por cada iteración de la variable de URL.

Por ejemplo para la siguiente URL de plantilla http://www.example.com/search?pageNo={{1|3|1}}

Esto creará las siguientes URL iniciales:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Instrucciones de raspado

Las instrucciones de Scrape le dicen al Web Scraper qué acciones llevar a cabo cuando se raspan los sitios web de destino. La pestaña Instrucciones de raspado muestra el asistente de raspado de forma predeterminada, lo que facilita agregar las instrucciones de raspado que necesita. Para comenzar, presione el Agregar nueva instrucción de raspado enlace.

Esto abrirá el asistente y cargará automáticamente la URL de destino, lo que le permitirá seleccionar de inmediato lo que desea raspar. Si se ha cargado una página web o un documento PDF, puede hacer clic en cualquier enlace y actuará normalmente, por ejemplo, la navegación a otra página web. Hasta que elija una de las acciones, en la parte inferior de la pantalla, en este puntoint cualquier clic en el contenido seleccionará el elemento HTML que desea extraer o manipular.

Lo primero que hay que entender sobre las instrucciones de raspado es que se ejecutan en cada página web de forma predeterminada. La forma de detener esto es mediante el uso de plantillas. Se puede asignar una plantilla cuando se realiza una acción, como hacer clic en un enlace, y para que cuando el raspador visite ese enlace o haga clic en ese botón, reconocerá que pertenece a la plantilla asignada. Esto permite definir diferentes tipos de páginas. Por ejemplo, puede tener una página de categoría de producto que contiene información general y luego una página de detalles que contiene la información del producto. Ambas páginas probablemente necesitarían un conjunto diferente de instrucciones de raspado.

Plantilla de raspador

Para comenzar, elija el Haz click una vez que haya seleccionado los elementos en los que desea realizar la acción y haya hecho clic en Siguiente ingrese el nombre de la plantilla en el botón Crear una plantilla cuadro de texto ahora cada vez que el raspador ejecuta estas acciones, la plantilla devuelta será el nombre que ha proporcionado.

Luego, para asignar una plantilla particular a una instrucción de raspado, debe seleccionar la plantilla deseada del Ejecutar en lista desplegable, que aparece en la ventana de opciones que aparece justo antes de agregar la instrucción de raspado. Las tres opciones principales al elegir una plantilla son las siguientes:

  • Todas las páginas - no use una plantilla, para esta instrucción de raspado, la instrucción de raspado se ejecutará en todas las páginas web.
  • Plantilla predeterminada - no use una de las plantillas definidas por el usuario. La instrucción de raspado se ejecutará en cualquier página web que no tenga una plantilla especificada.
  • Plantilla definida por el usuario - una de las plantillas que usted ha definido para identificar una página web o acción en particular.

Una vez que haya seleccionado una de estas opciones, la instrucción de raspado solo se ejecutará en la plantilla especificada.

Extrayendo datos

Notará que cuando selecciona el Extraer datos acción una serie de elementos de datos para extraer de inmediato está disponible para descargar en la esquina inferior izquierda de la pantalla. Estas son propiedades de toda la página que puede descargar. Para elegir uno, simplemente selecciónelo de la lista de opciones y haga clic en Siguiente para agregar los datos a la conjunto de datos.

Si desea extraer datos en elementos HTML específicos en lugar de pertenecer a toda la página, debe hacer clic en los elementos HTML relevantes, puede seleccionar elementos únicos o múltiples. Sin embargo, si selecciona varios elementos, intente seleccionar varios elementos que sean iguales, como varias filas en una columna, porque si el raspador no puede crear una regla que pueda identificar de forma única la colección de datos seleccionada, una instrucción de raspado no ser capaz de ser creado Además, si nuestro asistente de raspador web ha identificado los múltiples elementos en los que hace clic como datos repetidos, todos los datos repetidos en ese mismo grupo se seleccionarán automáticamente. Una vez que haya seleccionado todos sus elementos únicos o múltiples, elija un atributo para extraer de la parte inferior izquierda de la pantalla y luego haga clic Siguiente.

Crear un conjunto de datos

La pantalla del conjunto de datos le permite cambiar cómo se procesan los datos, por ejemplo, puede cambiar el nombre del conjunto de datos y las columnas dentro de él, simplemente haga clic en el nombre para cambiar el nombre. Cuando agrega una columna a un conjunto de datos, también debe elegir la plantilla en la que debe ejecutarse. Puede modificar esto haciendo clic en la lista desplegable ubicada debajo del nombre de la columna.

A menudo, cuando se extraen datos, es común que algunos elementos repetidos se repitan de manera inconsistente, para garantizar que las filas correctas aún estén asociadas entre sí. Columnas de enlace criterios, para vincular las columnas inconsistentes con la columna más consistente del conjunto de datos.

Para agregar más datos al conjunto de datos, haga clic en botón, o haga clic en el para eliminar datos del conjunto de datos, o para eliminar todo el conjunto de datos. El conjunto de datos también permite que se apliquen varios criterios a los datos, para hacer esto, seleccione la acción deseada desde la parte superior y luego haga clic en la columna correspondiente para aplicar los criterios. Si comete un error al agregar criterios, simplemente haga clic en botón.

Aquí está la lista de diferentes tipos de criterios y cómo usarlos:

  • Limitar filas - esto limitará el número de filas extraídas de la página web al número que defina. Para usar haga clic y luego haga clic en la fila más allá, que desea cortar.
  • Repetición: - repite los elementos de la columna hasta que la columna coincida con la longitud de la columna más larga. Para usar solo haz clic y luego haga clic en la columna para la que desea repetir los elementos.
  • Hacer único - elimina cualquier valor duplicado para todos los valores ingresados into una columna. Para usar solo haz clic y luego haga clic en la columna que desea que sea única.
  • Extraer valores - especifique un patrón para extraer solo los elementos de datos coincidentes de un bloque de texto. Para usar solo haz clic , seleccione la columna relevante y luego siga las instrucciones para crear un patrón que devolverá los datos relevantes del string.
  • Recortar valores - especifique un patrón para recortar texto redundante. Para usar solo haz clic , seleccione la columna relevante y luego siga las instrucciones para crear un patrón que recorte el texto.
  • Columnas de enlace - permite que las columnas se unan entre sí. De modo que al extraer datos, los registros aparecerán en la misma fila que la fila relativa en la columna vinculada, incluso cuando haya una falta de coincidencia en el número de resultados. Para usar solo haz clic , seleccione la columna para vincular y luego la columna para vincular.
  • Ocultar columna - a veces desea incluir una columna para filtrar pero no desea incluir los valores en el resultado final. Para hacer esto simplemente haga clic , seleccione la columna que desea excluir.
  • Orden ascendente - ordena por columna, ascendente. Para usar haga clic y luego elija la columna para ordenar.
  • Orden descendiente - ordena por columna, descendiendo. Para usar haga clic y luego elija la columna para ordenar.
  • contiene - solo incluya valores que contengan el valor definido. Para usar haga clic seleccione la columna deseada y luego ingrese el valor que deben contener los valores de la columna.
  • Igual a - solo incluya valores que sean iguales al valor definido. Para usar haga clic seleccione la columna deseada y luego ingrese el valor al que los valores de la columna deben ser iguales.
  • No igual a - solo incluya valores que no sean iguales al valor definido. Para usar haga clic seleccione la columna deseada y luego ingrese el valor al que la columna no debe ser igual.
  • Menos que - solo incluya valores que sean menores que el valor definido. Para usar haga clic para seleccionar la columna deseada y luego ingrese el valor que la columna debe ser menor que.
  • Mas grande que - solo incluya valores que sean mayores que el valor definido. Para usar haga clic para seleccionar la columna deseada y luego ingrese el valor que la columna debe ser mayor que.

Cuando haya seleccionado una de las operaciones anteriores si puede afectar a varias columnas, le preguntará si desea permitir que solo afecte a un subconjunto de las columnas o a todas ellas. En la mayoría de los casos, desea que afecte a todas las columnas, sin embargo, en algunas circunstancias es útil limitar las columnas afectadas. Por ejemplo, si está seleccionando una serie de etiquetas y valores, que cambian de posición en las páginas web, puede seleccionar todas las etiquetas y valores. Luego, en el conjunto de datos, use la operación igual para limitarlo a la etiqueta deseada y especifique que solo las columnas de etiqueta y valor deben verse afectadas. Esto asegurará que las otras columnas no se vean afectadas por las filas que se eliminan, por lo completo sería útil ocultar la columna de la etiqueta.

Una vez que haya modificado todo lo que desea, haga clic en Siguiente y, sus instrucciones de raspado se agregarán al raspado.

Manipulando una página web

Una página web puede manipularse antes de ser raspada, haciendo clic, escribiendo y seleccionando valores de los menús desplegables. Es importante recordar que, aunque esto puede hacer que se cargue una nueva página web, las instrucciones de raspado no se reiniciarán hasta que se hayan ejecutado todas las instrucciones de raspado correspondientes.

Para manipular una página web, elija el Haga clic en elemento, Elemento flotante, Voluta, Teclee el texto or Seleccione el valor de la lista desplegable comportamiento. Si está realizando una acción de clic, puede hacer clic en cualquier número de elementos en una página web. De lo contrario, debe seleccionar un elemento HTML apropiado, por ejemplo, el texto debe escribirse en un cuadro de texto. Luego haga clic Siguiente. Esto abrirá un cuadro de opción que le permite completar la acción. Al escribir texto y seleccionar desde un menú desplegable, los datos a escribir o seleccionar deben elegirse respectivamente. Aparte de eso, las opciones son las mismas para las tres acciones.

Si lo desea, puede seleccionar la plantilla en la que se debe ejecutar esta acción y, para la acción de clic, qué plantilla aplica, una vez que se complete la acción de clic. Sin embargo, asignar una nueva plantilla a una acción de clic que realiza múltiples clics en la misma página, no es una buena idea, como abrir ventanas emergentes en línea o hacer que aparezcan cosas en la pantalla. Esto se debe a que si la acción de hacer clic solo se ejecuta en ciertas plantillas, la nueva plantilla asignada por el primer clic no se restablecería y, por lo tanto, dependiendo de cómo se escribió el raspado, esto podría detener futuros clics en la misma página que se está ejecutando. También puede definir si desea que esta acción se ejecute solo una vez, lo cual es útil si está haciendo algo como iniciar sesión into un sitio web.

Las acciones Escribir texto o Seleccionar valor de lista desplegable le permiten escribir varios elementos de texto o realizar múltiples selecciones de cuadros de selección, respectivamente. Estos se pueden editar haciendo clic en las instrucciones de raspado Alterar o ver variables botón, como se muestra en la captura de pantalla a la izquierda.

Esto podría ser importante si desea escribir una lista de nombres en un cuadro de búsqueda, por ejemplo. Para garantizar que se envíe un formulario solo cuando hay un valor en el cuadro de búsqueda, se puede establecer una plantilla cada vez que el texto se escribe correctamente into el cuadro de texto y la acción de hacer clic en un botón no se realizan a menos que se establezca esta plantilla. Después de que se haya realizado la acción de hacer clic, la plantilla deberá cambiarse a otra para restablecer el procedimiento.

Después de que las acciones que manipulan los sitios web se hayan ejecutado, es útil esperar un tiempo si las acciones inician la funcionalidad AJAX, para permitir que el contenido AJAX se cargue antes de continuar con el raspado. Puede hacer esto agregando un retraso en el Después de la ejecución Espere caja de texto.

Es posible que desee saltar directamente a una URL diferente una vez que se cumpla alguna condición. Para hacer esto use el Ir a URL acción, que solo aparecerá cuando se haya definido al menos una plantilla en el raspado y cuando se haya creado debe asignarse a una plantilla, para ayudar a evitar bucles infinitos.

Finalmente, puede usar todas las API de captura de GrabzIt en sus raspados web, simplemente elija la acción Capturar página web y elija la captura que desee. Puede limitar esto para capturar ciertas páginas web dentro del scrape especificando una plantilla para ejecutar una vez que seleccione el Siguiente botón.

Después de agregar cada instrucción de raspado, se puede ver en el panel de instrucciones de raspado, la cruz al lado de cada instrucción de raspado permite que se elimine la instrucción de raspado. Si se elimina una instrucción de raspado que es requerida por otras instrucciones de raspado, esas instrucciones también se eliminan. Puede cambiar el orden de las instrucciones de raspado arrastrando las instrucciones de raspado con el icono de captura.

Escribir instrucciones de raspado manualmente

Si necesita personalizar las instrucciones de raspado de una manera más específica o si desea ejecutar código antes o después de los rasguños Deberá modificar las instrucciones de raspado manualmente.

Las instrucciones de raspado están basadas en JavaScript y el editor de código viene completo con un verificador de sintaxis, autocompletado y sugerencias de herramientas para que sea lo más fácil posible.

Instrucciones de Web Scraper Se puede acceder a la funcionalidad principal del editor de código a través de las opciones del menú, como se muestra en la captura de pantalla, el propósito de cada una se explica por separado a continuación. Si bien cualquier error de sintaxis en sus instrucciones de raspado se indica en el margen izquierdo del editor de código.

Mago el asistente le permite seleccionar partes de la página que desea extraer y realizar otras tareas comunes, como crear capturas web.

Mostrar instrucciones de raspado muestra el código de las instrucciones de raspado al usuario.

Eliminar todas las instrucciones elimina todas las instrucciones de raspado.

Funciones de página web ingresará la palabra clave de la página into las instrucciones de raspado y abra el autocompletado, que contiene todos los posibles Funciones de la página. Las funciones de página le permiten extraer datos de la página web.

Funciones de datos ingresará la palabra clave de datos into las instrucciones de raspado. Funciones de datos permitirte save información.

Funciones de navegación introduce la palabra clave de navegación into el editor de código. los Funciones de navegación le permite controlar cómo el Web Scraper navega por los sitios web de destino.

Funciones globales ingresa la palabra clave global into las instrucciones de raspado. Esto te da acceso a funciones que puede almacenar datos entre el análisis de diferentes páginas web. Al escribir instrucciones de raspado, es importante recordar que el estado de las variables de JavaScript en las instrucciones de raspado no se mantiene cuando el raspador se mueve entre páginas web, a menos que use las funciones globales para save variables, como se muestra a continuación.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Para crear una variable global persistente, pase verdadero al parámetro persistente en el método Global.set, como se muestra a continuación.

Global.set("myvariable", "hello", true);

Funciones de utilidad ingresa la palabra clave Utility into las instrucciones de raspado. Esto te permite usar funciones comunes que facilitan la escritura de raspaduras, como agregar o eliminar consultasstring parámetros de URL.

Funciones de criterios ingresa la palabra clave Criteria into las instrucciones de raspado. Estas funciones le permite refinar los datos extraídos durante su raspado, como eliminar duplicados.

Filtrar le permite crear fácilmente un filtro, esto es requerido por algunas funciones para seleccionar un elemento HTML en particular desde una página web. Simplemente seleccione los atributos que su elemento de destino debería tener y / o los padres del elemento deberían tener que seleccionar ese elemento. Asegúrese de que antes de hacer clic en esta opción, el cursor esté en el lugar correcto de la función para pasar el filtro también.

Funciones de captura de pantalla le permite establecer opciones de captura de pantalla. Simplemente coloque el cursor en la parte correcta de la función, como lo identifica la información sobre herramientas y presione las opciones de captura de pantalla. Luego elija todas las opciones que desee e inserte el comando.

Realizar acciones antes o después de un raspado

Puede ejecutar comandos antes o después de un raspado utilizando la lista desplegable de opciones en la parte superior de la pestaña Instrucciones de raspado. Cualquier comando ingresado cuando Ejecutar después de raspar se selecciona se ejecutará una vez que haya finalizado el raspado. Mientras que cualquier comando ingresado cuando Ejecutar antes de raspar se selecciona se ejecutará antes de que comience el raspado.

Sin embargo, en cualquiera de estos dos modos especiales solo hay un subconjunto de las instrucciones de raspado disponibles. Los comandos disponibles son las instrucciones de raspado de datos, global y navegación.

Cuerdas

Strings se utilizan en las instrucciones de raspado, cuando se realiza un raspado web, para definir texto. UNA string está delimitado por doble (") o comillas simples (') Si un string se inicia con una comilla doble, debe terminar con una comilla doble, si un string comienza con una comilla simple, debe terminar con una comilla simple. Por ejemplo:

"my-class" y 'my-class'

Un error común que puede ocurrir es el no cerrado string error, esto es cuando un string no tiene una cotización de cierre como se muestra arriba o hay un salto de línea en el string. Los siguientes son ilegales strings:

"my
class"

"my class

Para solucionar este error es asegurarse de que no contengan saltos de línea y tengan comillas coincidentes, de esta manera:

"my class" y "my class"

A veces desea que aparezca una comilla simple o doble en un string. La forma más fácil de hacer esto es poner una comilla simple en un string delimitado con comillas dobles y una comilla doble en un string delimitado con comillas simples, así:

"Bob's shop" y '"The best store on the web"'

Alternativamente, puede usar una barra invertida para escapar de una cita como esta:

'test\'s'

Tareas manuales comunes de raspado

Comprobador de enlaces Crear un verificador de enlaces personalizado - descubra cómo crear un comprobador de enlaces personalizado siguiendo estas sencillas instrucciones.
Descargar imagen Descargar todas las imágenes de un sitio web - descubra cómo descargar todas las imágenes de un sitio web completo.
Crear conjunto de datos Extraer datos y transformarlos intun conjunto de datos - descubra cómo crear un conjunto de datos desde el sitio web que está raspando.
Extraer enlaces Extraer enlaces de un sitio web - descubra cómo extraer todos los enlaces HTML de un sitio web completo y save ellos en el formato que desee.
Seleccionar texto Extraer valores del texto usando patrones - descubra cómo usar patrones para extraer valores de bloques de texto.
OCR Extraer texto de imágenes - descubra cómo extraer texto contenido en imágenes.
Conjunto de datos Cómo rellenar un conjunto de datos - formatee mejor sus datos extraídos mediante el uso de relleno.
Formación Matrices de manipulación - descubra cómo usar los métodos especiales de la utilidad de matriz para manejar fácilmente las matrices dentro de los raspados.
Acción Realizar una acción solo una vez durante un raspado - descubra cómo realizar una acción solo una vez durante un raspado completo.
Refinar Refinación de datos raspados - descubra cómo eliminar datos no necesarios de sus raspaduras.
Dirección de su correo electrónico Raspe las direcciones de correo electrónico de un sitio web - descubra cómo eliminar todas las direcciones de correo electrónico de un sitio web.
Captura de pantalla Captura de pantalla de todo el sitio web into PDF o imágenes - descubra cómo usar GrabzIt's Web Scraper para capturar cada página de un sitio web completo.
Captura de pantalla Extraer información estructurada de texto no estructurado - use GrabzIt para extraer sentimientos, nombres, ubicaciones y organizaciones.

Raspar contenido que no sea HTML

Cuando el Web Scraper se encuentra con PDF, XML, JSON y RSS, lo convertirá en una aproximación HTML, lo que permite que nuestro Web Scraper lo analice correctamente y que seleccione el contenido que desea extraer. Por ejemplo, si desea analizar datos JSON, los convertirá into una representación HTML jerárquica como se muestra al lado. Esto le permite crear instrucciones de raspado de forma normal.

De manera similar, cuando el raspador carga un documento PDF, el PDF se convierte into HTML para permitir la selección y el raspado de imágenes, hipervínculos, texto y tablas. Sin embargo, como un PDF no tiene una estructura real, las tablas se identifican mediante heurística y, por lo tanto, no siempre son precisas.

Opciones de exportación

Esta pestaña le permite elegir cómo desea exportar sus resultados, incluidas las hojas de cálculo de Excel, XML, JSON, CSV, comandos SQL o documentos HTML. Además, esta pestaña permite establecer el nombre de los resultados del raspado comprimido. Si solo está descargando archivos o creando capturas web, no hay necesidad de elegir una opción de exportación, ya que recibirá un archivo ZIP que contiene los resultados. Esta pestaña también le permite especificar cómo desea enviar los resultados. Puede enviar los resultados a través de Amazon S3, Dropbox, Notificación de correo electrónico, FTP y WebDav.

La opción final es una URL de devolución de llamada, que permite procesar los resultados de raspado en su aplicación utilizando nuestro raspar API.

El nombre de archivo de los resultados comprimidos o cada archivo de datos si solicita que se envíen por separado puede establecerse desmarcando la opción Usar nombre de archivo predeterminado y configurando el nombre de archivo deseado.

Programar raspado

Al crear un raspado web, la pestaña Programar raspado le permite establecer cuándo desea que se inicie el raspado y, si desea que se repita, con qué frecuencia debería hacerlo.

Monitoreo y depuración de raspaduras

Una vez que se inicia el raspado web, el ícono de estado cambiará a y las páginas procesadas comenzarán a aumentar con el tiempo. Una instantánea en tiempo real del progreso del raspado se produce regularmente con un archivo de registro generado junto con una captura de pantalla regular de la última página web que ha encontrado el raspador. Esto le permite ver lo que sucede durante el raspado. Para encontrar esta información, haga clic en el ícono expandir junto a su raspado y haga clic en Espectador por el roce que eres inthas entrado. Esto debería detallar si ha habido algún error, como problemas con las instrucciones de raspado.

Una vez que el raspado se haya completado con éxito, el ícono de estado cambiará a , si no hay ningún resultado al abrir el Visor, el registro y la última captura de pantalla pueden indicarle qué salió mal.

Uno de los problemas más comunes reportados en los registros es que no hay un retraso de representación suficiente para raspar la página, a menudo un pequeño aumento en el Retraso de carga de página encontrado en el Opciones de raspado La pestaña es suficiente para la mayoría de los sitios web.