从搜索引擎抓取图像

问题描述 投票:0回答:3

我想构建一个图像抓取器,该图像抓取器从bing,google或任何搜索引擎中抓取图像。关于此主题有很多答案和信息,但是似乎它们不再起作用,因为这些公司试图强迫人们使用其特定的搜索API。现在我的问题是,是否仍然有可能刮擦例如必应图像。我开始尝试将XMLHttpRequests发送到https://www.bing.com/images/search?q=banana。我是用NodeJs库和等效的Browser做的。结果与以下请求可比]

curl -A "Chrome/80.0.3987.149" "https://www.bing.com/images/search?q=banana"

当然有一些.jpg,但它们似乎是随机的,有时甚至与术语banana无关。主要目标是获得原始地址,Bing在此处找到了图像。或通过浏览开发人员工具中的元素以某种方式获得与获取相同的视图。

有人知道最新的开源项目,或者我必须如何开始这一旅程?

javascript node.js web-scraping bing google-image-search
3个回答
0
投票

我上次检查时,此project工作正常!我知道它是用Python编写的,但是如果您只查找图像,则应该可以完成工作!希望对您有所帮助:)


0
投票

您可以尝试使用Selenium Webdriver。使用自己的图片抓取工具应该很容易,并且它使用的浏览器如Firefox或Chrome。 Google和Bing不会阻止Selenium的访问,因为它是浏览器。

https://www.selenium.dev/


0
投票

对于您提到的用例,我强烈建议使用puppeteer。我已经使用它来自动化几乎所有与浏览器相关的功能-填写约会,获取火车票以从单页应用程序中抓取数据,甚至更多。

它基本上是无头的镶边,如果您以前使用过Javascript,那么您会发现自己很放心。该API确实非常简单,上手更加简单。

只需npm i puppeteer,您很好地需要它并且做各种魔术:D

© www.soinside.com 2019 - 2024. All rights reserved.