我需要收集一些关于欧洲议会成员的信息。我使用 Google Chrome 的检查器工具选择 CSS 类。
具体来说,“.sln-additional.info”类存储了每个议会成员的政党和国家信息。
url <- "https://www.europarl.europa.eu/meps/it/full-list/all"
html <- read_html(url)
info_hmtl <- html_elements(html,".sln-additional-info")
info <- html_text(info_hmtl)
每个成员的所有信息都存储在三行中。我需要存储在三列中。
感谢您的帮助
您应该能够使用
matrix()
和 ncol=3
将您获得的输出作为 byrow=TRUE
的输入。
library(dplyr)
library(rvest)
url <- "https://www.europarl.europa.eu/meps/it/full-list/all"
h <- read_html(url)
mem_names <- h %>% html_elements("div.erpl_title-h4.t-item") %>% html_text()
addl_info <- h %>% html_elements(".sln-additional-info") %>% html_text() %>% matrix(., ncol=3, byrow=TRUE)
res <- cbind(mem_names, addl_info)
head(res)
#> mem_names
#> [1,] "Magdalena ADAMOWICZ"
#> [2,] "Asim ADEMOV"
#> [3,] "Isabella ADINOLFI"
#> [4,] "Matteo ADINOLFI"
#> [5,] "Alex AGIUS SALIBA"
#> [6,] "Mazaly AGUILAR"
#>
#> [1,] "Gruppo del Partito popolare europeo (Democratici cristiani)"
#> [2,] "Gruppo del Partito popolare europeo (Democratici cristiani)"
#> [3,] "Gruppo del Partito popolare europeo (Democratici cristiani)"
#> [4,] "Gruppo Identità e Democrazia"
#> [5,] "Gruppo dell'Alleanza progressista di Socialisti e Democratici al Parlamento Europeo"
#> [6,] "Gruppo dei Conservatori e Riformisti europei"
#>
#> [1,] "Polonia" "Independent"
#> [2,] "Bulgaria" "Citizens for European Development of Bulgaria"
#> [3,] "Italia" "Forza Italia"
#> [4,] "Italia" "Lega"
#> [5,] "Malta" "Partit Laburista"
#> [6,] "Spagna" "VOX"
创建于 2023-04-03 与 reprex v2.0.2