Herramientas para capturar y convertir la web

¿GrabzIt's Web Scraper respeta los archivos robots.txt?

Nuestro Web Scraper debe respetar las reglas que se encuentran en un archivo robots.txt de sitios web. Una de las razones principales para esto, además de ser agradable, es que los raspadores web que no siguen el archivo robots.txt pueden encontrarse en la lista negra de un servicio honeypot.

Estos servicios utilizan el archivo robots.txt para indicarle a un raspador web que no visite un determinado archivo al que está vinculado desde el sitio web. Si el raspador web aún visita el archivo, entonces la dirección IP del raspador web aparece en la lista negra, evitando que el raspador web visite el sitio web en el futuro.