分割多个URL的多个子页面

问题描述 投票:1回答:1

我有如下基本URL列表:

PostURL
www.abc.com/2315Azxc
www.abc.com/1478Bnbx
www.abc.com/6734Gytr
www.abc.com/8912Jqwe

每个URL都有类似的子页面

www.abc.com/2315Azxc&page=1
www.abc.com/2315Azxc&page=2
www.abc.com/2315Azxc&page=3

我知道使用rvest如下从一个基本URL的多个子页面中抓取数据:

df<- lapply(paste0(' www.abc.com/2315Azxc&page=', 1:3),
                    function(url){
                      url %>% read_html() %>% 
                        html_nodes(".xg_border") %>% 
                        html_text()
                    })

但是,一一报废将需要大量的关注/时间。我正在寻找可以从基本URL的多个子页面中删除数据的解决方案。

r web-scraping rvest
1个回答
0
投票

您可以使用outer构建指向所有URL的链接:

all_links <- c(t(outer(df$PostURL, paste0('&page=', 1:3), paste0)))
© www.soinside.com 2019 - 2024. All rights reserved.