我试图从Nutch 1.x版本的seed.txt
获取所有被拒绝的URL的列表。
使用nutch inject
命令,我可以了解被拒绝的URL数量,但是有没有办法让完整的URL列表被拒绝?
您可以使用以下命令检查URL列表:
cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin
被拒绝的URL在行的开头由-
标记。当然,您必须使用与inject命令相同的URL过滤器配置运行filterchecker。
注意:这是使用Nutch 1.14的命令,以前的版本需要参数-allCombined
而不是-stdin
。