Raspar datos del contenido de documentos PDF no es tan flexible como hacerlo desde documentos HTML, sin embargo, todavía hay varias maneras de lograrlo usando GrabzIt's Web Scraper. Primero en raspar contenido PDF, usa el PDF
funciona en lugar de la Page
funciones, pero de lo contrario las funciones funcionan generalmente de la misma manera.
Un filtro para un documento PDF es mucho más simple que el de un documento HTML. En primer lugar, debe especificar qué tipo de contenido desea extraer: enlaces, imágenes o texto.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
Para enlaces e imágenes, puede restringir qué imagen o enlace se devuelve especificando su posición.
PDF.getValue({"type":"image","position":"2"});
Obtiene la segunda imagen en un documento. Para texto, imágenes y enlaces, puede restringir aún más los datos devueltos especificando un número de página.
PDF.getValue({"type":"image","position":"2","page":"5"});
Esto devolverá la segunda imagen de la quinta página. El texto viene con la opción agregada de número de línea, sin embargo, el texto no admite la posición.
PDF.getValue({"type":"text","page":"5","line":"10"});
Esto obtiene la décima línea de texto de la quinta página. Aparte de estas diferencias de opciones de filtro, el raspado de datos de documentos PDF funciona de manera muy similar a raspado de datos de documentos HTML, sin embargo, debido a que no puede ser tan específico en cuanto a lo que extrae con un filtro PDF, es posible que deba especificar un patrón para extraer la información correcta del texto.