如何在网站页面完全加载时抓取它(js,css all loaded)

问题描述 投票:1回答:1

我想抓取一些网站页面,如亚马逊或eBay,以获得已售出的项目图片路径。当我检查页面时,似乎当页面完全加载时,图像src被javascript修改。

有一个名为cheerio的图书馆。它很简单,但它没有公开一个方法在页面完全加载后进行一些检查,它只返回html。有没有人有这方面的经验?或者是否有任何库可用于获取真实的图像路径,因为它是由javascript修改的?谢谢你的帮助。

node.js web-crawler
1个回答
0
投票

正如评论中提到的,puppeteer可能是刮掉动态页面的最佳方式。它是一个与chrome / chromium接口的节点库,它将像常规chrome的实例一样加载页面。

在你的page.evaluate中,你可以使用MutationObserver浏览器api来观看DOM并等待你想要的图像。

我有很好的使用Apify的经验,它将为你运行木偶操作实例,并有一个慷慨的免费等级。

© www.soinside.com 2019 - 2024. All rights reserved.