Herramientas para capturar y convertir la web

Cómo raspar la lista de productos y las páginas de detalles

En los sitios web a menudo hay una página de búsqueda, que contiene una lista de elementos, y cada elemento recibe una descripción resumida con un enlace a una página de detalles que incluye información detallada sobre el elemento.

Como esta estructura se usa con tanta frecuencia, a menudo existe la necesidad de obtener información sobre cada elemento de la página de búsqueda y el resto de la página de detalles. Este artículo le dará orientación sobre cómo raspar dicha información.

Primero ingrese la URL de la página de la lista de productos que desea raspar. Luego seleccione la información que desea seleccionar de la página de la lista de productos. Asegúrese de que todos los ejemplos de los datos estén seleccionados.

Luego, en la página de instrucciones de raspado, haga clic en Agregar instrucción de raspado.

Lo primero que debe tener en cuenta es que nuestro raspador funciona exactamente de la misma manera que un navegador, por lo que si hay una notificación de seguridad de cookies u otra ventana emergente en línea que le impide hacer clic en la página, debe indicarle al raspador que cierre la ventana emergente antes de El resto del raspado se puede hacer. La mayoría de estas ventanas emergentes solo necesitan hacer clic una vez, por lo que puede decirle a GrabzIt que haga lo mismo. Para hacer esto use el Haga clic en elemento acción y haga clic en el elemento HTML requerido para cerrar la ventana emergente. Luego haga clic en la opción Solo una vez y luego Save y después.

Luego elige el Extraer datos acción, luego seleccione los datos que desea extraer. Entonces, si desea seleccionar el título de un elemento, de la lista de resultados de búsqueda. Asegúrese de que todos los títulos de esa lista estén seleccionados.

Nuestro asistente intenta identificar automáticamente conjuntos de datos y puede seleccionar más información de la que desea automáticamente. Si esto sucede, simplemente haga clic nuevamente en los elementos que no desea que se seleccionen y ya no se incluirán. Esto le enseña a nuestro raspador web qué extraer.

Ahora, elija el atributo del elemento de datos que desea extraer. Como "Texto" y luego haga clic en Siguiente. En la siguiente pantalla dale un título. Tenga en cuenta que aquí desea que todos los datos utilicen la Plantilla predeterminada. Esto se debe a que desea que los datos se extraigan cuando no están en una plantilla especial.

Una vez que haya seleccionado todos los datos de artículos que desea extraer de la página de búsqueda de productos. Seleccione todos los enlaces para obtener más información en la página de detalles del producto. Esto podría ser, por ejemplo, la imagen. Luego haga clic en el Haga clic en elemento acción. Establezca la plantilla en "detalle" y luego dele un retraso de cinco segundos y haga clic en Siguiente. Cuando le pregunte si desea extraer datos de la nueva página, elija sí. Ahora seleccione los datos que desea extraer como antes. Pero esta vez, especifique que debe ejecutarse bajo la plantilla "detalle".

Agregue otra instrucción de raspado y regrese a la página principal. Esta vez seleccione el siguiente botón de los enlaces de paginación. Cuando el Haga clic en acción aparece el cuadro de opciones, seleccione el botón de la página siguiente opción. De esta manera, el raspador sabe que este botón es en realidad un botón de paginación y paginará a través de todos los resultados. Asegúrese de tener esta última instrucción de raspado. Si no es la última instrucción de raspado, puede arrastrarse hasta el final.

Luego vaya a la pestaña de programación y haga clic en Crear para iniciar el raspado. Puede ver el progreso del raspado en tiempo real en la página Administrar raspados haciendo clic en el icono de la fila y luego en el icono del visor del raspado.