获取div中的图像链接#imgTagWrapperId

问题描述 投票:1回答:1

我希望使用R中的rvest将提取只是图像的链接作为字符串

我试过的是:

url <-"https://www.amazon.in/Livwell-Multipurpose-MultiColor-Polka- 
Lunch/dp/B07LGTPM3D/ref=sr_1_1_sspa?ie=UTF8&qid=1548701326&sr=8-1- 
spons&keywords=lunch+bag&psc=1"

webpage <- read_html(url)
imglink<-(webpage %>%
html_nodes("div#imgTagWrapperId") %>% 
html_nodes("img") %>%
html_attr("src"))

我希望imglink有价值:https://images-na.ssl-images-amazon.com/images/I/51H-DAUxWzL.jpg

但是,它是一个非常长的字符类型对象,这不是我需要的。请帮忙?

r web-scraping screen-scraping src rvest
1个回答
0
投票

您可以使用下面显示的id(和属性)或从脚本标记中提取(通过转换为json标记内的javascript对象)

require(rvest)
url <-"https://www.amazon.in/Livwell-Multipurpose-MultiColor-Polka-Lunch/dp/B07LGTPM3D/ref=sr_1_1_sspa?ie=UTF8&qid=1548701326&sr=8-1-spons&keywords=lunch+bag&psc=1"

webpage <- read_html(url)
r <- webpage %>%
            html_nodes("#landingImage") %>% 
            html_attr("data-a-dynamic-image")
imglink <- strsplit(r, '"')[[1]][2]
print(imglink)
© www.soinside.com 2019 - 2024. All rights reserved.