在R中,我试图提取网页上的所有链接:“ https://coronavirus.data.gov.uk/archive/”
对于其他网页,我对rvest pacakge使用了以下方法,效果很好:
url_page<-"https://coronavirus.data.gov.uk/archive/"
webpage<-read_html(url_page)
all_links<-html_attr(html_nodes(webpage, "a"), "href")
但是这会为此网页产生一个空值。例如,它适用于“ https://www.gov.uk/guidance/coronavirus-covid-19-information-for-the-public”
我认为可能与启用了javascript的网页有关。有谁知道如何使用R提取此类网页的链接?
非常感谢
大卫。
我相信您正在使用rvest软件包。
url = read_html("https://coronavirus.data.gov.uk/archive/")
url %>%
html_nodes('.govuk-template__body') %>%
html_text()
返回运行JavaScript的错误消息。您可以使用RSelenium
包作为解决方案,该解决方案允许使用浏览器抓取数据来首先加载表。