我正在使用Scrapy在抓取项目中工作,我需要在群集的不同节点之间分布我的Spider,以加快该过程。我正在使用ScrapydWeb对其进行管理,我已经配置了两台计算机,其中一台配置了ScrapydWeb,两台都配置了Scrapyd。该Web应用程序可以识别这两者,并且我可以正确运行Spider。问题在于爬网是并行运行的(两台机器都在获取内容),我的目的是以分布式方式进行以最大程度地减少爬网时间。
有人可以帮我吗?预先谢谢你。
我不认为Scrapyd&ScrapydWeb提供了在不同服务器上运行Spider的可能性,而不仅仅是完全运行相同的Spider。如果要分发爬网,则可以: