Node.js的Web信息采集 - 如何获得在HTML中加载的所有数据？

Question

我试图用Node.js的实现数据潦草。我用爱可信将HTML文件，并使用cheerio获取数据。

然而，我发现HTML不具有数据，但只有布局返回。我想带负载的网站布局第一，然后做AJAX的东西来查询数据，然后渲染。

所以，任何人都知道如何获得完整的HTML数据？任何图书馆或工具？

谢谢。

Answer 1

我建议你使用硒库在python BS4库，如果有一些Python的经验。

节点

https://www.npmjs.com/package/selenium-webdriver

我一直在使用这两个库是用Python编写刮。

刮刀是LinkedIn的个人资料从excel文件取的名字，并搜索是否可用的数据添加到另一个excel文件

https://github.com/harsh4870/Scraper_LinkedIn

节点代码是这样

    driver = webdriver.Firefox();
driver.get("http://example.com");
html = driver.getPageSource();