Herramientas para capturar y convertir la web

Grandes mejoras de web scraper para 2019

08 de marzo de 2019

Además de un rediseño y un montón de correcciones de errores, hemos realizado mejoras drásticas en el web scraper de GrabzIt, que incluyen:

  • Apoyar la extracción de contenido contenido en estilos CSS
  • Ahora puedes elegir el país desde el que se ejecuta el scrape. Por el momento las opciones son Estados Unidos o Reino Unido.
  • Ahora puedes elegir si respetas las reglas del robots.txt o no. De forma predeterminada, lo hace un raspado.
  • Los datos relativos ahora se pueden asociar automáticamente entre sí, esto es útil cuando tiene datos que están presentes en algunos elementos HTML pero no en otros. Al asociar esos elementos, los valores aparecerán en los elementos de datos correctos en el conjunto de datos resultante.
  • Al crear un conjunto de datos, diferentes columnas pueden pertenecer a diferentes plantillas, lo que significa que algunas columnas se pueden completar desde un tipo de página y otras columnas desde diferentes tipos de página. Un ejemplo de esto sería una página de listado de productos y una página de detalles del producto. Esto le permitiría obtener detalles generales de la página de listado y luego la información detallada de la página de detalles del producto.
  • Otra forma en que se ha mejorado el generador de conjuntos de datos es permitir que los efectos de una operación, como contiene, menos que, etc., se apliquen a todas o algunas columnas.
  • Ahora hay varios nuevos comandos disponible en el asistente de scrape.
    • Eliminar: ahora puede eliminar elementos, lo cual resulta útil en algunas circunstancias para evitar que los mismos elementos se lean varias veces.
    • Desplazamiento: el web scraper ahora puede desplazarse por los elementos HTML que lo admiten.
    • Colocar el mouse sobre un elemento específico: este comando colocará el mouse sobre un elemento específico, lo que puede resultar útil para revelar información.
    • Paginación: esta es una nueva característica para la acción Hacer clic y permite que la paginación se realice automáticamente en enlaces de paginación seleccionados. Esto significa que incluso si el raspador hace clic en algún lugar de los datos paginados, como parte del raspado, encontrará el camino de regreso a la página paginada actual para continuar con el raspado.
  • La mejor parte de Grabz es Raspador web es que puedes usarlo gratis todos los meses. Entonces, ¿a qué estás esperando? Pruébalo y envíanos cualquier comentario que tengas. ¡Nos encantaría hacer del nuestro el mejor raspador web en línea!

Ver las últimas publicaciones del blog