Herramientas para capturar y convertir la web

Grandes mejoras de web scraper para 2019

Viernes, Marzo 8, 2019

Adem√°s de un redise√Īo y un mont√≥n de correcciones de errores, hemos realizado mejoras dr√°sticas en el raspador web de Grabz, que incluyen:

  • Apoyar la extracci√≥n de contenido contenido en estilos CSS
  • Ahora puede elegir el pa√≠s desde el que se ejecuta un raspado. Por el momento, las opciones son los Estados Unidos o el Reino Unido.
  • Ahora puede elegir si respeta las reglas de robots.txt o no. Por defecto, un raspado hace.
  • Los datos relativos ahora se pueden asociar autom√°ticamente, esto es √ļtil cuando tiene datos que est√°n presentes en algunos elementos HTML pero no en otros. Al asociar esos elementos, los valores aparecer√°n contra los elementos de datos correctos en el conjunto de datos resultante.
  • Al crear un conjunto de datos, diferentes columnas pueden pertenecer a diferentes plantillas, lo que significa que algunas columnas se pueden completar desde un tipo de p√°gina y otras columnas desde diferentes tipos de p√°gina. Un ejemplo de esto ser√≠a una p√°gina de listado de productos y una p√°gina de detalles del producto. Esto le permitir√≠a obtener los detalles generales de la p√°gina de listado y luego la informaci√≥n detallada de la p√°gina de detalles del producto.
  • Otra forma en que se ha mejorado el generador de conjuntos de datos es permitir que los efectos de una operaci√≥n, como un contenido, menos que etc., se apliquen a todas o algunas columnas.
  • Ahora hay varios nuevos comandos disponible desde el asistente de raspado.
    • Eliminar: ahora puede eliminar elementos, lo que es √ļtil en algunas circunstancias para evitar que los mismos elementos se lean varias veces.
    • Desplazamiento: el raspador web ahora puede desplazar elementos HTML que lo admiten.
    • Desplazar: este comando desplazar√° el mouse sobre un elemento especificado, lo que puede ser √ļtil para revelar informaci√≥n.
    • Paginaci√≥n: esta es una nueva caracter√≠stica para la acci√≥n Hacer clic y permite que la paginaci√≥n se realice autom√°ticamente en los enlaces de paginaci√≥n seleccionados. Esto significa que incluso si el raspador hace clic en alg√ļn lugar de los datos paginados, como parte del raspado, encontrar√° su camino de regreso a la p√°gina paginada actual para continuar con el raspado.
  • La mejor parte de Grabz es Raspador web es que puedes usarlo gratis todos los meses. Entonces, ¬Ņqu√© esperas para probarlo y por favor env√≠anos cualquier comentario que tengas y nos encantar√≠a hacer que el nuestro sea el mejor raspador web en l√≠nea!

Ver las √ļltimas publicaciones del blog