如何检测亚马逊站点地图

问题描述 投票:0回答:4

我正在尝试从 amazon.com 抓取一些产品,但我在它的 robots.txt 中找不到它

我试过了

amazon.com/sitemap.xml
amazon.com/sitemap.xml.gz
amazon.com/sitemap1.xml.gz
amazon.com/sitemap1.xml

一切都没有出现

我也尝试过站点地图检测器,例如

https://seositecheckup.com/tools/sitemap-test

结果显示亚马逊没有站点地图。 真的吗?或者我没有正确的方法。

web-scraping scrapy sitemap
4个回答
0
投票

网站索引并不严格需要站点地图。 Google、Bing 和其他搜索引擎拥有先进的算法和爬虫,旨在发现网络上的内容并为其建立索引,无论是否有站点地图。

亚马逊可能没有站点地图,或者它是出于各种目的动态生成的,并且可能仅限于某些机器人/IP 地址。

这是亚马逊支付服务的站点地图https:// paymentservices.amazon.com/sitemap/

这是 stackexchange 上的类似问题https://webmasters.stackexchange.com/questions/49186/why-important-big-sites-dont-include-a-sitemap


0
投票

站点地图不需要搜索引擎对网站进行爬网和索引,但它们可以显着改进该过程并确保所有页面都被正确发现和索引。

虽然某些网站,尤其是像亚马逊这样的大型网站,可能不会严重依赖传统的站点地图进行索引,但他们仍然经常在某些方面使用它们。除了仅仅依靠站点地图之外,确实可以通过多种方式来抓取亚马逊信息。以下是一些替代方法:

  1. 类别 URL:亚马逊网站采用分层结构,产品分为类别和子类别。您可以首先抓取类别 URL 来访问每个类别中的产品列表。这种方法允许您系统地浏览不同的产品类别。

  2. 分页 URL:亚马逊上的许多页面(例如搜索结果或类别列表)都是分页的。通过抓取分页 URL,您可以系统地浏览某个类别或搜索结果中的多个产品列表页面。这使您能够访问大量产品数据。

  3. 产品 URL:如果您有特定的产品或产品标识符,您可以直接抓取各个产品页面的 URL。这种方法允许您提取有关每个产品的详细信息,包括定价、描述、评论等。

这些方法都有其优点和局限性,选择取决于您需要的具体数据、抓取规模以及亚马逊提供的访问级别等因素。此外,必须确保您的抓取活动符合亚马逊的服务条款和法律要求,以避免任何潜在问题。


-1
投票

查看robots.txt,您将在底部看到一个访问被拒绝的站点地图链接。 该资源可能只有机器人才能访问(特定用户代理、IP...)。


-1
投票

亚马逊不可能没有Sitemap。亚马逊作为产品在搜索引擎优化方面是建立在非常好的方式上的。您在网站上看到的页面是规范化页面。与规范 URL 相比,您从网站上看到的页面是重复的,并且缺少一些模块,如面包屑等。 Amazon Nav 菜单并非全部都可以让爬虫爬取 P3 级别的页面。

所以在那里建立网站的方式必须是站点地图。

现在,由于他们需要保持网站数据的私密性,同时在搜索引擎上推广相同的数据,他们必须显示从某个 AWS 服务器提供服务,或者他们正在使用动态服务,或者也许他们已经从以下位置一起提交了 URL不同的域、子域、私有域等 站点地图的整个议程是为爬虫提供 URL。不确定只是猜测,因为很难找出亚马逊的站点地图 URL。

© www.soinside.com 2019 - 2024. All rights reserved.