如何使用Scrapyd和ScrapydWeb在整个群集中分布蜘蛛程序?

问题描述 投票:0回答:1

我正在使用Scrapy在抓取项目中工作,我需要在群集的不同节点之间分布我的Spider,以加快该过程。我正在使用ScrapydWeb对其进行管理,我已经配置了两台计算机,其中一台配置了ScrapydWeb,两台都配置了Scrapyd。该Web应用程序可以识别这两者,并且我可以正确运行Spider。问题在于爬网是并行运行的(两台机器都在获取内容),我的目的是以分布式方式进行以最大程度地减少爬网时间。

有人可以帮我吗?预先谢谢你。

scrapy web-crawler distributed-computing scrapyd
1个回答
0
投票

我不认为Scrapyd&ScrapydWeb提供了在不同服务器上运行Spider的可能性,而不仅仅是完全运行相同的Spider。如果要分发爬网,则可以:

  • 仅在1台服务器上运行1个Spider
  • 如果需要实际的分布式爬网(同一蜘蛛在不同计算机上运行而没有多台计算机解析相同的URL),则可以查看Scrapy-Cluster
  • [您可以编写自定义代码,其中有1个过程生成要刮擦的url的一侧,将找到的url放入队列中(使用Redis fe,并且有多个服务器从该队列中弹出url来获取和解析页面)] >
© www.soinside.com 2019 - 2024. All rights reserved.