我如何使用R从启用了javascript的网页中提取链接

Question

在R中，我试图提取网页上的所有链接：“ https://coronavirus.data.gov.uk/archive/”

对于其他网页，我对rvest pacakge使用了以下方法，效果很好：

url_page<-"https://coronavirus.data.gov.uk/archive/"
webpage<-read_html(url_page)
all_links<-html_attr(html_nodes(webpage, "a"), "href")

我认为可能与启用了javascript的网页有关。有谁知道如何使用R提取此类网页的链接？

非常感谢

大卫。

Answer 1

我相信您正在使用rvest软件包。

url = read_html("https://coronavirus.data.gov.uk/archive/")
url %>%
  html_nodes('.govuk-template__body') %>%
  html_text()

返回运行JavaScript的错误消息。您可以使用RSelenium包作为解决方案，该解决方案允许使用浏览器抓取数据来首先加载表。