在Nutch 1.x中拒绝了URL列表

问题描述 投票:0回答:1

我试图从Nutch 1.x版本的seed.txt获取所有被拒绝的URL的列表。

使用nutch inject命令,我可以了解被拒绝的URL数量,但是有没有办法让完整的URL列表被拒绝?

regex nutch
1个回答
0
投票

您可以使用以下命令检查URL列表:

cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin

被拒绝的URL在行的开头由-标记。当然,您必须使用与inject命令相同的URL过滤器配置运行filterchecker。

注意:这是使用Nutch 1.14的命令,以前的版本需要参数-allCombined而不是-stdin

© www.soinside.com 2019 - 2024. All rights reserved.