从 Bing 图像搜索结果中抓取 URL

问题描述 投票:0回答:1

我正在 R 中构建一个抓取脚本,以从搜索引擎获取产品图像。在当前阶段,我已成功使用以下代码片段从 Google 图片搜索中获取包含图像的 URL:

google_urls <- GET("https://www.google.com/search?q=WWF%20CUB%20CLUB%20WWF16215003&tbm=isch", user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36") %>%
                 read_html() %>%
                 html_nodes(xpath = "//td/a") %>% 
                 html_attr("href") %>%
                 `[`(str_detect(., "/url\\?")) %>%
                 strsplit("=|\\&") %>%
                 sapply(`[`, 2)

为了扩展抓取解决方案的搜索范围,我也希望从 Bing 中抓取类似的 URL。但是,当我为 Bing 复制下面的代码时,我没有得到任何结果。事实上,运行代码块时,bing_urls 是空的。

bing_urls <- GET("https://www.bing.com/images/search?q=WWF%20CUB%20CLUB%20WWF16215003", user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36") %>%
                read_html() %>%
                html_nodes(xpath = "//td/a") %>% 
                html_attr("href") %>%
                `[`(str_detect(., "/url\\?")) %>%
                strsplit("=|\\&") %>%
                sapply(`[`, 2)

如何修改 bing 代码块以获得与 Google 初始 URL 类似类型的 URL?

r web-scraping rvest bing
1个回答
0
投票

我不清楚您是否想要图像 URL,或者产品本身页面的 URL。无论如何,下面的代码返回的结果与您为 Google 搜索提供的示例类似:

library(httr)

GET("https://www.bing.com/images/search?q=WWF%20CUB%20CLUB%20WWF16215003", user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36") %>%
                read_html() %>%
                html_nodes(".lnkw") %>%
                html_nodes("a") %>%
                html_attr("href")
© www.soinside.com 2019 - 2024. All rights reserved.