问题陈述:
我有这个网页,列表中的每个候选人都有链接,其中包含我想要抓取的一些信息。
因此,对于所有候选人,我必须单击链接并手动获取详细信息,这是一项繁琐的任务。
我想自动化这个请帮助我。
我认为要自动执行此任务,我应该编写一个脚本,单击每个链接并刮取数据。
但我想知道如何刮取需要登录的网页。
您看到的网页只能通过登录页面访问。
如果除了这种方法,任何人都有更好的解决方案来完成这项任务 - 请帮忙。
谢谢:)
如果您需要刮取一次数据并存储它,您可以使用webscraper.io chrome扩展并以所需的文件格式保存数据。这里的抓取将在您的浏览器中完成,因此,您可以手动登录一次并开始抓取。
否则,如果要将抓取过程集成到服务器中并将数据提供给用户,则可以使用axios / request等库来发出HTTP请求,并使用cheerio从HTML中提取所需的数据。
您还可以使用无头chrome节点API,Puppeteer。