Node.js的Web信息采集 - 如何获得在HTML中加载的所有数据?

问题描述 投票:0回答:1

我试图用Node.js的实现数据潦草。我用爱可信将HTML文件,并使用cheerio获取数据。

然而,我发现HTML不具有数据,但只有布局返回。我想带负载的网站布局第一,然后做AJAX的东西来查询数据,然后渲染。

所以,任何人都知道如何获得完整的HTML数据?任何图书馆或工具?

谢谢。

html node.js web-crawler
1个回答
0
投票

我建议你使用硒库在python BS4库,如果有一些Python的经验。

节点

https://www.npmjs.com/package/selenium-webdriver

我一直在使用这两个库是用Python编写刮。

刮刀是LinkedIn的个人资料从excel文件取的名字,并搜索是否可用的数据添加到另一个excel文件

https://github.com/harsh4870/Scraper_LinkedIn

节点代码是这样

    driver = webdriver.Firefox();
driver.get("http://example.com");
html = driver.getPageSource();
© www.soinside.com 2019 - 2024. All rights reserved.