Nuestro Web Scraper debe respetar las reglas que se encuentran en el archivo robots.txt de un sitio web. Una de las razones principales de esto, además de ser agradable, es que los web scrapers que no siguen el archivo robots.txt pueden ser incluidos en la lista negra de un servicio de honeypot.
Estos servicios utilizan el archivo robots.txt para indicarle a un web scraper que no visite un determinado archivo al que está vinculado desde el sitio web. Si el web scraper aún visita el archivo, entonces la dirección IP del web scraper está en la lista negra, lo que impide que el web scraper visite el sitio web en el futuro.