需要使用node.js登录的Web抓取网页

问题描述 投票:0回答:1

问题陈述:

我有这个网页,列表中的每个候选人都有链接,其中包含我想要抓取的一些信息。

因此,对于所有候选人,我必须单击链接并手动获取详细信息,这是一项繁琐的任务。

我想自动化这个请帮助我。

Candidate List

My solution:

我认为要自动执行此任务,我应该编写一个脚本,单击每个链接并刮取数据。

但我想知道如何刮取需要登录的网页。

您看到的网页只能通过登录页面访问。

如果除了这种方法,任何人都有更好的解决方案来完成这项任务 - 请帮忙。

谢谢:)

javascript node.js authentication web-scraping login
1个回答
0
投票

如果您需要刮取一次数据并存储它,您可以使用webscraper.io chrome扩展并以所需的文件格式保存数据。这里的抓取将在您的浏览器中完成,因此,您可以手动登录一次并开始抓取。

否则,如果要将抓取过程集成到服务器中并将数据提供给用户,则可以使用axios / request等库来发出HTTP请求,并使用cheerio从HTML中提取所需的数据。

您还可以使用无头chrome节点API,Puppeteer。

© www.soinside.com 2019 - 2024. All rights reserved.