我如何使用R从启用了javascript的网页中提取链接

问题描述 投票:0回答:1

在R中,我试图提取网页上的所有链接:“ https://coronavirus.data.gov.uk/archive/

对于其他网页,我对rvest pacakge使用了以下方法,效果很好:

url_page<-"https://coronavirus.data.gov.uk/archive/"
webpage<-read_html(url_page)
all_links<-html_attr(html_nodes(webpage, "a"), "href")

但是这会为此网页产生一个空值。例如,它适用于“ https://www.gov.uk/guidance/coronavirus-covid-19-information-for-the-public

我认为可能与启用了javascript的网页有关。有谁知道如何使用R提取此类网页的链接?

非常感谢

大卫。

javascript html r hyperlink rvest
1个回答
0
投票

我相信您正在使用rvest软件包。

url = read_html("https://coronavirus.data.gov.uk/archive/")
url %>%
  html_nodes('.govuk-template__body') %>%
  html_text()

返回运行JavaScript的错误消息。您可以使用RSelenium包作为解决方案,该解决方案允许使用浏览器抓取数据来首先加载表。

© www.soinside.com 2019 - 2024. All rights reserved.