风暴履带中铲斗号码的用途是什么?

问题描述 投票:0回答:1

在使用分区“host”抓取多个网站时,也会根据主机生成也称为存储桶的分区密钥。并且每个spout实例都有一个桶来获取URL。如果我只抓取一个网站会怎么样?在这种情况下,我只有一个桶,这意味着只有一个喷口的实例将访问我的桶?如果一个存储桶中的所有网址都被抓取,则会抓取许多网站。如果spout实例移动到下一个存储桶,是不是?

web-crawler apache-storm stormcrawler
1个回答
0
投票

如果您抓取一个站点然后是,则只有一个喷口处于活动状态。如果您对许多站点进行爬网,它们将分布在多个存储桶中,并且相同数量的spout实例将处于活动状态。当没有更多的URL来获取分片时,相应的spout将不会在拓扑中发送URL。其他spout实例将继续处理URL,直到没有其他操作为止。

© www.soinside.com 2019 - 2024. All rights reserved.