Para crear un raspado web, debe especificar cinco tipos de información, distribuidos en las siguientes pestañas.
Todas las siguientes características están disponibles para personalizar un raspado web en la pestaña Opciones de raspado.
Scrape Name El nombre del raspado.
Seguir enlaces proporciona las siguientes opciones sobre cómo el raspador debe seguir los enlaces:
Ignorar archivo Robots.txt si está configurado, el raspador puede visitar las páginas web que normalmente se excluyen del rastreo del propietario del sitio web.
Ignorar descargas de archivos una vez configurados los enlaces, que provocan la descarga de un archivo cuando se visitan no se descargan.
Ignorar duplicados si se configura, ignorará las páginas que sean iguales o superiores a la similitud que configuró, por ejemplo, podría ignorar las páginas que son 95% iguales.
Limite raspar le permite especificar cuántas páginas debe raspar el raspador web antes de detenerse.
Usar mi zona horaria si está configurado, indica que Web Scraper debería intentar convertir cualquier fecha que raspe into su zona horaria local. Su zona horaria se puede configurar en la página de la cuenta.
Ubicación la ubicación geográfica desde la que Web Scraper realizará el raspado. Esto podría ser útil si el sitio web de destino tiene restricciones basadas en la ubicación.
Formato de fecha predeterminado al convertir fechas en las que no se puede determinar el formato de fecha, Web Scraper en su lugar elegirá de forma predeterminada.
Retraso de carga de página Este es el tiempo en milisegundos que Web Scraper debe esperar antes de analizar una página. Esto es muy útil si una página contiene mucho AJAX o es lenta de cargar.
En la pestaña Sitios web de destino, especifique los sitios web de los que desea extraer datos. Para indicarle a la herramienta de extracción que extraiga datos de un sitio web, primero debe especificar la URL principal que es interested en eg http://www.example.com/shop/
Aquí es donde el raspador comenzará su raspado, puede ser una página web normal, un documento PDF, un documento XML, un documento JSON, un feed RSS o un mapa del sitio. Si no se trata de una página web o documento PDF, el raspador encontrará todos los enlaces en el archivo y visitará cada uno.
Para seguir solo los enlaces que se encuentran en la URL de destino y no en las páginas posteriores, puede configurar Seguir enlaces opción de raspado a en la primera página. Esto usará la URL de destino solo para sembrar el resto del raspado.
Por defecto, el raspador web sigue cada enlace que descubre en cada página web que visita. Si desea restringir qué enlaces Raspador web A continuación, una forma sencilla de hacer esto es especificar un patrón de URL. Esto funciona especificando una URL con el asterisco como comodín para indicar que cualquier carácter puede estar presente en esta parte del patrón. Por ejemplo http://www.example.com/*/articles/*
eliminaría cualquier URL que tenga artículos como el segundo directorio desde la raíz del sitio web.
Una forma más restrictiva de definir un patrón de URL es definir alternativas. Por ejemplo, este ejemplo solo coincidirá con la tienda o las noticias: http://www.example.com//*
Por lo tanto, esto coincidiría con esto http://www.example.com/store/products/1
pero no http://www.example.com/about/
Las URL de semillas permiten a un usuario especificar una lista de URL que debe rastrear el Web Scraper. Si solo desea raspar las URL de semilla, configure Seguir enlaces opciones de raspado a sin páginas en la pestaña Opciones de raspado.
Para configurar las URL de semillas en la pestaña Sitios web de destino, haga clic en el botón Agregar destino, luego marque la casilla de verificación Establecer URL de semillas y especifique cada URL para raspar en una línea separada.
Alternativamente, puede generar automáticamente las URL iniciales utilizando una URL de plantilla, esta es una URL única que incluye una variable de URL. Una variable de URL especifica un rango de números para ser iterado.
El número de inicio es el número en el que la variable de URL debe comenzar a contar, el número de finalización es el número en el que la variable de URL dejará de contar, el número de iteración es el número que aumentará el número por cada iteración de la variable de URL.
Por ejemplo para la siguiente URL de plantilla http://www.example.com/search?pageNo=
Esto creará las siguientes URL iniciales:
La URL también puede especificar una URL con parámetros para POST también, por ejemplo, un formulario de inicio de sesión. Para hacerlo, especifique la URL del formulario en el cuadro de texto URL de destino y agregue los parámetros de publicación necesarios para usar. Los valores de variables posteriores también pueden incluir variables especiales de GrabzIt, como:
- día como un valor de dos dígitos
- mes como valor de dos dígitos
- año como valor de cuatro dígitos
- hora como valor de dos dígitos
- minuto como un valor de dos dígitos
- segundo como un valor de dos dígitosLas instrucciones de raspado le indican al Web Scraper qué acciones realizar al raspar el sitio web de destino. La pestaña Instrucciones de raspado muestra el asistente de raspado de forma predeterminada, lo que facilita la adición de las instrucciones de raspado que necesita. Un buen ejemplo del uso de este asistente se muestra en la Lista de productos y tutorial de raspado de detalles.
Una vez que esté listo para comenzar a raspar presione el Agregar nueva instrucción de raspado enlace.
Esto abrirá el asistente y cargará automáticamente la URL de destino, lo que le permitirá seleccionar de inmediato lo que desea raspar. Si se ha cargado una página web o un documento PDF, puede hacer clic en cualquier enlace y actuará normalmente, por ejemplo, la navegación a otra página web. Hasta que elija una de las acciones, en la parte inferior de la pantalla, en este puntoint cualquier clic en el contenido seleccionará el elemento HTML que desea extraer o manipular.
Lo primero que hay que entender sobre las instrucciones de raspado es que se ejecutan en cada página web de forma predeterminada. La forma de detener esto es mediante el uso de plantillas. Se puede asignar una plantilla cuando se realiza una acción, como hacer clic en un enlace, y para que cuando el raspador visite ese enlace o haga clic en ese botón, reconocerá que pertenece a la plantilla asignada. Esto permite definir diferentes tipos de páginas. Por ejemplo, puede tener una página de categoría de producto que contiene información general y luego una página de detalles que contiene la información del producto. Ambas páginas probablemente necesitarían un conjunto diferente de instrucciones de raspado.
Para comenzar, elija el Haga clic una vez que haya seleccionado los elementos en los que desea realizar la acción y haya hecho clic en Siguiente ingrese el nombre de la plantilla en el botón Crear una plantilla cuadro de texto ahora cada vez que el raspador ejecuta estas acciones, la plantilla devuelta será el nombre que ha proporcionado.
Luego, para asignar una plantilla particular a una instrucción de raspado, debe seleccionar la plantilla deseada del Ejecutar en lista desplegable, que aparece en la ventana de opciones que aparece justo antes de agregar la instrucción de raspado. Las tres opciones principales al elegir una plantilla son las siguientes:
Una vez que haya seleccionado una de estas opciones, la instrucción de raspado solo se ejecutará en la plantilla especificada.
Notará que cuando selecciona el Extraer datos acción. La esquina inferior izquierda de la pantalla le invita a seleccionar un elemento HTML en la ventana de arriba o elegir una propiedad de página global.
Para utilizar una propiedad de página global, haga clic en el propiedad de página global enlace. Luego, confirme que desea continuar. Ahora tendrá una lista de propiedades que se pueden extraer directamente de la página. Por ejemplo: Título de la página.
Para elegir uno, simplemente selecciónelo de la lista de opciones y haga clic en Siguiente para agregar los datos a la datos.
Si desea extraer datos en elementos HTML específicos en lugar de pertenecer a toda la página, debe hacer clic en los elementos HTML relevantes, puede seleccionar elementos únicos o múltiples. Sin embargo, si selecciona varios elementos, intente seleccionar varios elementos que sean iguales, como varias filas en una columna, porque si el raspador no puede crear una regla que pueda identificar de forma única la colección de datos seleccionada, una instrucción de raspado no ser capaz de ser creado Además, si nuestro asistente de raspador web ha identificado los múltiples elementos en los que hace clic como datos repetidos, todos los datos repetidos en ese mismo grupo se seleccionarán automáticamente. Una vez que haya seleccionado todos sus elementos únicos o múltiples, elija un atributo para extraer de la parte inferior izquierda de la pantalla y luego haga clic Siguiente.
La pantalla del conjunto de datos le permite cambiar cómo se procesan los datos, por ejemplo, puede cambiar el nombre del conjunto de datos y las columnas dentro de él, simplemente haga clic en el nombre para cambiar el nombre. Cuando agrega una columna a un conjunto de datos, también debe elegir la plantilla en la que debe ejecutarse. Puede modificar esto haciendo clic en la lista desplegable ubicada debajo del nombre de la columna.
A menudo, cuando se extraen datos, es común que algunos elementos repetidos se repitan de manera inconsistente, para garantizar que las filas correctas aún estén asociadas entre sí. Columnas de enlace criterios, para vincular las columnas inconsistentes con la columna más consistente del conjunto de datos.
Para agregar más datos al conjunto de datos, haga clic en botón, o haga clic en el
para eliminar datos del conjunto de datos, o
para eliminar todo el conjunto de datos. El conjunto de datos también permite que se apliquen varios criterios a los datos, para hacer esto, seleccione la acción deseada desde la parte superior y luego haga clic en la columna correspondiente para aplicar los criterios. Si comete un error al agregar criterios, simplemente haga clic en
del botón.
Aquí está la lista de diferentes tipos de criterios y cómo usarlos:
Cuando haya seleccionado una de las operaciones anteriores si puede afectar a varias columnas, le preguntará si desea permitir que solo afecte a un subconjunto de las columnas o a todas ellas. En la mayoría de los casos, desea que afecte a todas las columnas, sin embargo, en algunas circunstancias es útil limitar las columnas afectadas. Por ejemplo, si está seleccionando una serie de etiquetas y valores, que cambian de posición en las páginas web, puede seleccionar todas las etiquetas y valores. Luego, en el conjunto de datos, use la operación igual para limitarlo a la etiqueta deseada y especifique que solo las columnas de etiqueta y valor deben verse afectadas. Esto asegurará que las otras columnas no se vean afectadas por las filas que se eliminan, por lo completo sería útil ocultar la columna de la etiqueta.
Una vez que haya modificado todo lo que desea, haga clic en Siguiente y sus instrucciones de raspado se agregarán al raspado. Luego, tiene la opción de agregar más instrucciones de raspado si lo desea.
Una página web puede manipularse antes de ser raspada, haciendo clic, escribiendo y seleccionando valores de los menús desplegables. Es importante recordar que, aunque esto puede hacer que se cargue una nueva página web, las instrucciones de raspado no se reiniciarán hasta que se hayan ejecutado todas las instrucciones de raspado correspondientes.
Para manipular una página web, elija el Haga clic en elemento, Elemento flotante, Voluta, Teclee el texto or Seleccione el valor de la lista desplegable comportamiento. Si está realizando una acción de clic, puede hacer clic en cualquier número de elementos en una página web. De lo contrario, debe seleccionar un elemento HTML apropiado, por ejemplo, el texto debe escribirse en un cuadro de texto. Luego haga clic Siguiente. Esto abrirá un cuadro de opción que le permite completar la acción. Al escribir texto y seleccionar desde un menú desplegable, los datos a escribir o seleccionar deben elegirse respectivamente. Aparte de eso, las opciones son las mismas para las tres acciones.
Si lo desea, puede seleccionar la plantilla en la que se debe ejecutar esta acción y, para la acción de clic, qué plantilla aplica, una vez que se complete la acción de clic. Sin embargo, asignar una nueva plantilla a una acción de clic que realiza múltiples clics en la misma página, no es una buena idea, como abrir ventanas emergentes en línea o hacer que aparezcan cosas en la pantalla. Esto se debe a que si la acción de hacer clic solo se ejecuta en ciertas plantillas, la nueva plantilla asignada por el primer clic no se restablecería y, por lo tanto, dependiendo de cómo se escribió el raspado, esto podría detener futuros clics en la misma página que se está ejecutando. También puede definir si desea que esta acción se ejecute solo una vez, lo cual es útil si está haciendo algo como iniciar sesión into un sitio web.
Las acciones Escribir texto o Seleccionar valor de lista desplegable le permiten escribir varios elementos de texto o realizar múltiples selecciones de cuadros de selección, respectivamente. Estos se pueden editar haciendo clic en las instrucciones de raspado Alterar o ver variables botón, como se muestra en la captura de pantalla a la izquierda.
Esto podría ser importante si desea escribir una lista de nombres en un cuadro de búsqueda, por ejemplo. Para garantizar que se envíe un formulario solo cuando hay un valor en el cuadro de búsqueda, se puede establecer una plantilla cada vez que el texto se escribe correctamente into el cuadro de texto y la acción de hacer clic en un botón no se realizan a menos que se establezca esta plantilla. Después de que se haya realizado la acción de hacer clic, la plantilla deberá cambiarse a otra para restablecer el procedimiento.
Después de que las acciones que manipulan los sitios web se hayan ejecutado, es útil esperar un tiempo si las acciones inician la funcionalidad AJAX, para permitir que el contenido AJAX se cargue antes de continuar con el raspado. Puede hacer esto agregando un retraso en el Después de la ejecución Espere caja de texto.
Es posible que desee saltar directamente a una URL diferente una vez que se cumpla alguna condición. Para hacer esto use el Ir a URL acción, que solo aparecerá cuando se haya definido al menos una plantilla en el raspado y cuando se haya creado debe asignarse a una plantilla, para ayudar a evitar bucles infinitos.
Finalmente, puede usar todas las API de captura de GrabzIt en sus raspados web, simplemente elija la acción Capturar página web y elija la captura que desee. Puede limitar esto para capturar ciertas páginas web dentro del scrape especificando una plantilla para ejecutar una vez que seleccione el Siguiente del botón.
Después de agregar cada instrucción de raspado, se puede ver en el panel de instrucciones de raspado, la cruz al lado de cada instrucción de raspado permite que se elimine la instrucción de raspado. Si se elimina una instrucción de raspado que es requerida por otras instrucciones de raspado, esas instrucciones también se eliminan. Puede cambiar el orden de las instrucciones de raspado arrastrando las instrucciones de raspado con el icono de captura.
Si necesita personalizar las instrucciones de raspado de una manera más específica, deberá modificar las instrucciones de raspado manualmente.
Las instrucciones de raspado están basadas en JavaScript y el editor de código viene completo con un verificador de sintaxis, autocompletado y sugerencias de herramientas para que sea lo más fácil posible.
Se puede acceder a la funcionalidad principal del editor de código a través de las opciones del menú, como se muestra en la captura de pantalla, el propósito de cada una se explica por separado a continuación. Si bien cualquier error de sintaxis en sus instrucciones de raspado se indica en el margen izquierdo del editor de código.
el asistente le permite seleccionar partes de la página que desea extraer y realizar otras tareas comunes, como crear capturas web.
muestra el código de las instrucciones de raspado al usuario.
elimina todas las instrucciones de raspado.
ingresará la palabra clave de la página into las instrucciones de raspado y abra el autocompletado, que contiene todos los posibles Funciones de la página. Las funciones de página le permiten extraer datos de la página web.
ingresará la palabra clave de datos into las instrucciones de raspado. Funciones de datos permitirte save información.
introduce la palabra clave de navegación into el editor de código. los Funciones de navegación le permite controlar la forma en que Web Scraper navega por el sitio web de destino.
ingresa la palabra clave global into las instrucciones de raspado. Esto te da acceso a funciones que puede almacenar datos entre el análisis de diferentes páginas web. Al escribir instrucciones de raspado, es importante recordar que el estado de las variables de JavaScript en las instrucciones de raspado no se mantiene cuando el raspador se mueve entre páginas web, a menos que use las funciones globales para save variables, como se muestra a continuación.
Global.set("myvariable", "hello"); var mrvar = Global.get("myvariable");
Para crear una variable global persistente, pase verdadero al parámetro persistente en el método Global.set, como se muestra a continuación.
Global.set("myvariable", "hello", true);
ingresa la palabra clave Utility into las instrucciones de raspado. Esto te permite usar funciones comunes que facilitan la escritura de raspaduras, como agregar o eliminar consultasstring parámetros de URL.
ingresa la palabra clave Criteria into las instrucciones de raspado. Estas funciones le permite refinar los datos extraídos durante su raspado, como eliminar duplicados.
le permite crear fácilmente un filtro, esto es requerido por algunas funciones para seleccionar un elemento HTML en particular desde una página web. Simplemente seleccione los atributos que su elemento de destino debería tener y / o los padres del elemento deberían tener que seleccionar ese elemento. Asegúrese de que antes de hacer clic en esta opción, el cursor esté en el lugar correcto de la función para pasar el filtro también.
le permite establecer opciones de captura de pantalla. Simplemente coloque el cursor en la parte correcta de la función, como lo identifica la información sobre herramientas y presione las opciones de captura de pantalla. Luego elija todas las opciones que desee e inserte el comando.
Strings se utilizan en las instrucciones de raspado, cuando se realiza un raspado web, para definir texto. UNA string está delimitado por doble ("
) o comillas simples ('
) Si un string se inicia con una comilla doble, debe terminar con una comilla doble, si un string comienza con una comilla simple, debe terminar con una comilla simple. Por ejemplo:
"my-class"
y 'my-class'
Un error común que puede ocurrir es el no cerrado string error, esto es cuando un string no tiene una cotización de cierre como se muestra arriba o hay un salto de línea en el string. Los siguientes son ilegales strings:
"my
class"
"my class
Para solucionar este error es asegurarse de que no contengan saltos de línea y tengan comillas coincidentes, de esta manera:
"my class"
y "my class"
A veces desea que aparezca una comilla simple o doble en un string. La forma más fácil de hacer esto es poner una comilla simple en un string delimitado con comillas dobles y una comilla doble en un string delimitado con comillas simples, así:
"Bob's shop"
y '"The best store on the web"'
Alternativamente, puede usar una barra invertida para escapar de una cita como esta:
'test\'s'
Cuando el Web Scraper se encuentra con PDF, XML, JSON y RSS, lo convertirá en una aproximación HTML, lo que permite que nuestro Web Scraper lo analice correctamente y que seleccione el contenido que desea extraer. Por ejemplo, si desea analizar datos JSON, los convertirá into una representación HTML jerárquica como se muestra al lado. Esto le permite crear instrucciones de raspado de forma normal.
De manera similar, cuando el raspador carga un documento PDF, el PDF se convierte into HTML para permitir la selección y el raspado de imágenes, hipervínculos, texto y tablas. Sin embargo, como un PDF no tiene una estructura real, las tablas se identifican mediante heurística y, por lo tanto, no siempre son precisas.
Esta pestaña le permite elegir cómo desea exportar sus resultados, incluidas las hojas de cálculo de Excel, XML, JSON, CSV, comandos SQL o documentos HTML. Además, esta pestaña permite establecer el nombre de los resultados del raspado comprimido. Si solo está descargando archivos o creando capturas web, no hay necesidad de elegir una opción de exportación, ya que recibirá un archivo ZIP que contiene los resultados. Esta pestaña también le permite especificar cómo desea enviar los resultados. Puede enviar los resultados a través de Amazon S3, Dropbox, Notificación de correo electrónico, FTP y WebDav.
La opción final es una URL de devolución de llamada, que permite procesar los resultados de raspado en su aplicación utilizando nuestro raspar API.
El nombre de archivo de los resultados comprimidos o cada archivo de datos, si solicita que se envíen por separado, se puede configurar desmarcando la opción Usar nombre de archivo predeterminado y configurando el nombre de archivo deseado. Además, se puede agregar una marca de tiempo a su nombre de archivo poniendo {GrabzIt_Timestamp_UTC+1}
en el nombre del archivo. El +1 denota el desplazamiento en horas desde UTC.
También puede ver los resultados de un raspado haciendo clic en el Ver Resultados botón, junto a tu raspa, esto mostrará los resultados del raspado en tiempo real, así como los anteriores realizados en las últimas 48 horas.
Al crear un raspado web, la pestaña Programar raspado le permite establecer cuándo desea que se inicie el raspado y, si desea que se repita, con qué frecuencia debería hacerlo.
Una vez que se inicia el raspado web, el ícono de estado cambiará a y las páginas procesadas comenzarán a aumentar con el tiempo. Una instantánea en tiempo real del progreso del raspado se produce regularmente con un archivo de registro generado junto con una captura de pantalla regular de la última página web que ha encontrado el raspador. Esto le permite ver lo que sucede durante el raspado. Para encontrar esta información, haga clic en el ícono expandir junto a su raspado y haga clic en Espectador por el roce que eres inthas entrado. Esto debería detallar si ha habido algún error, como problemas con las instrucciones de raspado.
Una vez que el raspado se haya completado con éxito, el ícono de estado cambiará a , si no hay ningún resultado al abrir el Visor, el registro y la última captura de pantalla pueden indicarle qué salió mal.
Uno de los problemas más comunes reportados en los registros es que no hay un retraso de representación suficiente para raspar la página, a menudo un pequeño aumento en el Retraso de carga de página encontrado en Opciones de raspado La pestaña es suficiente para la mayoría de los sitios web.