需要使用node.js登录的Web抓取网页

问题描述投票：0回答：1

问题陈述：

我有这个网页，列表中的每个候选人都有链接，其中包含我想要抓取的一些信息。

因此，对于所有候选人，我必须单击链接并手动获取详细信息，这是一项繁琐的任务。

我想自动化这个请帮助我。

我认为要自动执行此任务，我应该编写一个脚本，单击每个链接并刮取数据。

但我想知道如何刮取需要登录的网页。

您看到的网页只能通过登录页面访问。

如果除了这种方法，任何人都有更好的解决方案来完成这项任务 - 请帮忙。

谢谢：）

javascript

node.js

authentication

web-scraping

1个回答

0
投票

如果您需要刮取一次数据并存储它，您可以使用webscraper.io chrome扩展并以所需的文件格式保存数据。这里的抓取将在您的浏览器中完成，因此，您可以手动登录一次并开始抓取。

否则，如果要将抓取过程集成到服务器中并将数据提供给用户，则可以使用axios / request等库来发出HTTP请求，并使用cheerio从HTML中提取所需的数据。

您还可以使用无头chrome节点API，Puppeteer。