从欧洲议会网站抓取数据

问题描述 投票:0回答:1

我需要收集一些关于欧洲议会成员的信息。我使用 Google Chrome 的检查器工具选择 CSS 类。

具体来说,“.sln-additional.info”类存储了每个议会成员的政党和国家信息。

url <- "https://www.europarl.europa.eu/meps/it/full-list/all"
html <- read_html(url)

info_hmtl <- html_elements(html,".sln-additional-info")
info <- html_text(info_hmtl)

每个成员的所有信息都存储在三行中。我需要存储在三列中。

感谢您的帮助

html r web-scraping rvest
1个回答
0
投票

您应该能够使用

matrix()
ncol=3
将您获得的输出作为
byrow=TRUE
的输入。

library(dplyr)
library(rvest)
url <- "https://www.europarl.europa.eu/meps/it/full-list/all"
h <- read_html(url)
mem_names <- h %>% html_elements("div.erpl_title-h4.t-item") %>% html_text()
addl_info <- h %>% html_elements(".sln-additional-info") %>% html_text() %>% matrix(., ncol=3, byrow=TRUE)
res <- cbind(mem_names, addl_info)
head(res)
#>      mem_names            
#> [1,] "Magdalena ADAMOWICZ"
#> [2,] "Asim ADEMOV"        
#> [3,] "Isabella ADINOLFI"  
#> [4,] "Matteo ADINOLFI"    
#> [5,] "Alex AGIUS SALIBA"  
#> [6,] "Mazaly AGUILAR"     
#>                                                                                           
#> [1,] "Gruppo del Partito popolare europeo (Democratici cristiani)"                        
#> [2,] "Gruppo del Partito popolare europeo (Democratici cristiani)"                        
#> [3,] "Gruppo del Partito popolare europeo (Democratici cristiani)"                        
#> [4,] "Gruppo Identità e Democrazia"                                                       
#> [5,] "Gruppo dell'Alleanza progressista di Socialisti e Democratici al Parlamento Europeo"
#> [6,] "Gruppo dei Conservatori e Riformisti europei"                                       
#>                                                                
#> [1,] "Polonia"  "Independent"                                  
#> [2,] "Bulgaria" "Citizens for European Development of Bulgaria"
#> [3,] "Italia"   "Forza Italia"                                 
#> [4,] "Italia"   "Lega"                                         
#> [5,] "Malta"    "Partit Laburista"                             
#> [6,] "Spagna"   "VOX"

创建于 2023-04-03 与 reprex v2.0.2

© www.soinside.com 2019 - 2024. All rights reserved.