使用RVEST对<dl><dt><dd>html标签进行网络抓取。

Question

我正试图使用Rvest从二手车广告中刮取一些数据。然而，我无法使用html_nodes()函数刮取构成< dl > , < dt > 或< dd > html标签的部分数据。

更具体地说，我想在一个数据框架中刮取下面图片中的汽车广告的特征。https:/www.autoscout24.benlaanbodmercedes-benz-slk-200-benzine-grijs-e77f7a3e-76b1-4676-88a0-b52c9574068a?cldtidx=3&cldtsrc=listPage

请在此输入图片描述

谁能帮我解决一下，好吗？

谢谢！Arne

Answer 1

这个（以及其他几个组合--试错）我已经试过了。我希望有一个数据框架，其中< dt > 标签是键，< dd > 标签是值。

install.packages("rvest")    
library(rvest)

autoscout_mercedes <- read_html("https://www.autoscout24.be/nl/lst/mercedes-benz?sort=standard&desc=0&ustate=N%2CU&cy=B&atype=C")

features <- autoscout_mercedes %>%    
      html_nodes("div.sc-ellipsis") %>%    
      html_nodes("a") %>%    
      html_attr("href")    

features

我还附上了html脚本的打印画面。请在这里输入图片描述

使用RVEST对<dl><dt><dd>html标签进行网络抓取。

问题描述投票：0回答：1

1个回答

最新问题

使用RVEST对<dl><dt><dd>html标签进行网络抓取。

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1