提取产品链接的正确选择器是什么?

问题描述 投票:0回答:1

我想抓取此网页中的产品链接(href)。 https://www.artfinder.com/editors-picks/theme/amazing-techniques/blurred-lines/#/

我正在使用 r,无法弄清楚在 html_nodes() 中写入的正确选择器是什么。 我尝试了“.fit-in”、“a.af-place.fit-in”,但他们不提供链接。

你能帮我吗?

r web-scraping css-selectors
1个回答
0
投票

此页面的结构不适用于

rvest
中的选择器。如果你使用Chrome的开发者工具之类的东西,你可以检查页面使用的资源,结果发现有一个API可以以JSON格式返回数据。

因此,获取所需数据(需要更多整理)的一种方法是......

library(jsonlite)
prod_url <- "https://www.artfinder.com/api/theme/amazing-techniques/blurred-lines/products/?page=1&paginate=1000&sort=best_match&limit=1000"
prods <- fromJSON(prod_url)$results

这会返回一个包含大量信息的数据框,包括包含 url 的列。

© www.soinside.com 2019 - 2024. All rights reserved.