使用 rvest 从网络上抓取元素

Question

我正在尝试从网站上抓取元素：https://diga.bfarm.de/de/verzeichnis

我的目标是从所有 class="entity-app" 创建一个表

library (rvest)
document <- read_html("https://diga.bfarm.de/de/verzeichnis")
html_products <- document %>% html_elements("entity-app")

我的目标是成为以下的结果

实体应用__标题__名称	实体应用__info__list__header
第一	行
第二个	行

如果有人有一个想法或想法，那就太好了。

非常感谢亲爱的未来贡献者。 ;)

Answer 1

如果有帮助的话，这对我有用（使用 rvest 的

read_html_live

并将结果放入两列数据框中）：

library(tibble)
library(rvest)

sess <- 
  read_html_live("https://diga.bfarm.de/de/verzeichnis") 

Sys.sleep(5)

tibble(
  header = sess |>
    html_elements(".entity-app__header__name") |>
    html_text2(),
  info = sess |>
    html_elements(".entity-app__subheader") |>
    html_text2()
)
#> # A tibble: 57 × 2
#>    header                                                             info      
#>    <chr>                                                              <chr>     
#>  1 actensio                                                           Vorläufig…
#>  2 Cara Care für Reizdarm                                             Dauerhaft…
#>  3 companion patella powered by medi - proved by Dt. Kniegesellschaft Dauerhaft…
#>  4 deprexis                                                           Dauerhaft…
#>  5 edupression.com®                                                   Dauerhaft…
#>  6 elevida                                                            Dauerhaft…
#>  7 elona therapy Depression                                           Vorläufig…
#>  8 Endo-App                                                           Dauerhaft…
#>  9 glucura Diabetestherapie                                           Vorläufig…
#> 10 HelloBetter Chronische Schmerzen                                   Dauerhaft…
#> # ℹ 47 more rows

^{创建于 2024-05-06，使用 reprex v2.1.0}

使用 rvest 从网络上抓取元素

问题描述投票：0回答：1

1个回答

最新问题

使用 rvest 从网络上抓取元素

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1