使用 rvest 从网络上抓取元素

问题描述 投票:0回答:1

我正在尝试从网站上抓取元素:https://diga.bfarm.de/de/verzeichnis

我的目标是从所有 class="entity-app" 创建一个表

library (rvest)
document <- read_html("https://diga.bfarm.de/de/verzeichnis")
html_products <- document %>% html_elements("entity-app")

我的目标是成为以下的结果

实体应用__标题__名称 实体应用__info__list__header
第一
第二个

如果有人有一个想法或想法,那就太好了。

非常感谢亲爱的未来贡献者。 ;)

r web-scraping rvest
1个回答
0
投票

如果有帮助的话,这对我有用(使用 rvest 的

read_html_live
并将结果放入两列数据框中):

library(tibble)
library(rvest)

sess <- 
  read_html_live("https://diga.bfarm.de/de/verzeichnis") 

Sys.sleep(5)

tibble(
  header = sess |>
    html_elements(".entity-app__header__name") |>
    html_text2(),
  info = sess |>
    html_elements(".entity-app__subheader") |>
    html_text2()
)
#> # A tibble: 57 × 2
#>    header                                                             info      
#>    <chr>                                                              <chr>     
#>  1 actensio                                                           Vorläufig…
#>  2 Cara Care für Reizdarm                                             Dauerhaft…
#>  3 companion patella powered by medi - proved by Dt. Kniegesellschaft Dauerhaft…
#>  4 deprexis                                                           Dauerhaft…
#>  5 edupression.com®                                                   Dauerhaft…
#>  6 elevida                                                            Dauerhaft…
#>  7 elona therapy Depression                                           Vorläufig…
#>  8 Endo-App                                                           Dauerhaft…
#>  9 glucura Diabetestherapie                                           Vorläufig…
#> 10 HelloBetter Chronische Schmerzen                                   Dauerhaft…
#> # ℹ 47 more rows

创建于 2024-05-06,使用 reprex v2.1.0

© www.soinside.com 2019 - 2024. All rights reserved.