我想抓取一些网站页面,如亚马逊或eBay,以获得已售出的项目图片路径。当我检查页面时,似乎当页面完全加载时,图像src被javascript修改。
有一个名为cheerio
的图书馆。它很简单,但它没有公开一个方法在页面完全加载后进行一些检查,它只返回html。有没有人有这方面的经验?或者是否有任何库可用于获取真实的图像路径,因为它是由javascript修改的?谢谢你的帮助。
正如评论中提到的,puppeteer可能是刮掉动态页面的最佳方式。它是一个与chrome / chromium接口的节点库,它将像常规chrome的实例一样加载页面。
在你的page.evaluate
中,你可以使用MutationObserver浏览器api来观看DOM并等待你想要的图像。
我有很好的使用Apify的经验,它将为你运行木偶操作实例,并有一个慷慨的免费等级。