“ rvest”未使用html_nodes()获取产品详细信息

问题描述 投票:0回答:1

我使用rvest在Amazon的产品搜索results上抓取产品的详细信息(名称,价格和可用性)。我可以使用read_html()来获取网页,但是无法获取产品的详细信息(名称,价格和可用性)。该页面具有<span>标记,类别为class = "a-size-medium a-color-base a-text-normal"。我用过html_nodes("span.a-size-medium a-color-base a-text-normal"),但得到了NA

这里是可复制的代码:

library(rvest)
library(xml2)

url <- "https://www.amazon.in/s?k=Smartphone&rh=n%3A1389401031&ref=nb_sb_noss"

page <- read_html(url)

data <- page%>%
  html_node("span.a-size-medium a-color-base a-text-normal") %>%
  html_text()

print(data)
html r web-scraping rvest xml2
1个回答
0
投票

您只需要稍微更改css选择器。我能够得到名称和价格,可用性有点棘手:/

library(rvest)
library(xml2)

url <- "https://www.amazon.in/s?k=Smartphone&rh=n%3A1389401031&ref=nb_sb_noss"

page <- read_html(url)

name <- page %>% html_nodes(".a-size-medium.a-color-base.a-text-normal") %>% html_text()

price <- page %>% html_nodes(".a-price-whole") %>% html_text()
© www.soinside.com 2019 - 2024. All rights reserved.