我有如下基本URL列表:
PostURL
www.abc.com/2315Azxc
www.abc.com/1478Bnbx
www.abc.com/6734Gytr
www.abc.com/8912Jqwe
每个URL都有类似的子页面
www.abc.com/2315Azxc&page=1
www.abc.com/2315Azxc&page=2
www.abc.com/2315Azxc&page=3
我知道使用rvest
如下从一个基本URL的多个子页面中抓取数据:
df<- lapply(paste0(' www.abc.com/2315Azxc&page=', 1:3),
function(url){
url %>% read_html() %>%
html_nodes(".xg_border") %>%
html_text()
})
但是,一一报废将需要大量的关注/时间。我正在寻找可以从基本URL的多个子页面中删除数据的解决方案。
您可以使用outer
构建指向所有URL的链接:
all_links <- c(t(outer(df$PostURL, paste0('&page=', 1:3), paste0)))