从在EAN / UPC谷歌搜索中排名第一的网站获取数据

问题描述 投票:0回答:1

我很好奇以下自动化是否可行:

  1. 在谷歌搜索UCP / EAN代码(例如8710103703631
  2. 从关于产品的第一个排名页面中刮取并解析数据(取决于可用的数据): 名称 牌 模型 图片 描述

试着了解这可能有多复杂。

谢谢!

web-scraping product barcode information-retrieval information-extraction
1个回答
0
投票

通过API查找EAN / UPC代码

有一些free web-APIs(反向)查找条形码(EAN / UPC)或提供其他信息。

例如,ean-search.org是一个REST API,由EAN查询并提供XML(例如,为您的样本“Philips Sonicare”提供链接到亚马逊)。

使用API​​的好处:准备使用数据,无需刮擦。

抓取搜索结果的网页

当然,您可以使用搜索引擎(如google,duckduckgo等),并使用您喜欢的编程语言中最喜欢的web-scraping库搜索条形码:

  • JSoup(Java):请参阅this question
  • Scrapy或BeautifulSoup(在Python中):请参阅qazxsw poi
© www.soinside.com 2019 - 2024. All rights reserved.