使用RVEST对<dl><dt><dd>html标签进行网络抓取。

问题描述 投票:0回答:1

我正试图使用Rvest从二手车广告中刮取一些数据。然而,我无法使用html_nodes()函数刮取构成< dl > , < dt > 或< dd > html标签的部分数据。

更具体地说,我想在一个数据框架中刮取下面图片中的汽车广告的特征。https:/www.autoscout24.benlaanbodmercedes-benz-slk-200-benzine-grijs-e77f7a3e-76b1-4676-88a0-b52c9574068a?cldtidx=3&cldtsrc=listPage

请在此输入图片描述

谁能帮我解决一下,好吗?

谢谢!Arne

html r web-scraping rvest
1个回答
0
投票

这个(以及其他几个组合--试错)我已经试过了。我希望有一个数据框架,其中< dt > 标签是键,< dd > 标签是值。

install.packages("rvest")    
library(rvest)

autoscout_mercedes <- read_html("https://www.autoscout24.be/nl/lst/mercedes-benz?sort=standard&desc=0&ustate=N%2CU&cy=B&atype=C")

features <- autoscout_mercedes %>%    
      html_nodes("div.sc-ellipsis") %>%    
      html_nodes("a") %>%    
      html_attr("href")    

features

我还附上了html脚本的打印画面。请在这里输入图片描述

© www.soinside.com 2019 - 2024. All rights reserved.