如何在网站页面完全加载时抓取它（js，css all loaded）

问题描述投票：1回答：1

我想抓取一些网站页面，如亚马逊或eBay，以获得已售出的项目图片路径。当我检查页面时，似乎当页面完全加载时，图像src被javascript修改。

有一个名为cheerio的图书馆。它很简单，但它没有公开一个方法在页面完全加载后进行一些检查，它只返回html。有没有人有这方面的经验？或者是否有任何库可用于获取真实的图像路径，因为它是由javascript修改的？谢谢你的帮助。

node.js web-crawler

1个回答

0
投票

正如评论中提到的，puppeteer可能是刮掉动态页面的最佳方式。它是一个与chrome / chromium接口的节点库，它将像常规chrome的实例一样加载页面。

在你的page.evaluate中，你可以使用MutationObserver浏览器api来观看DOM并等待你想要的图像。

我有很好的使用Apify的经验，它将为你运行木偶操作实例，并有一个慷慨的免费等级。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.