Nutch 1.6不会在seed.txt中搜索新条目

问题描述 投票:0回答:1

我设置了Solr 7.7.1和Nutch 1.6并进行了测试搜索。为此,我在seed.txt中放置了一个URL,一切正常。测试完成后,我删除了Solr中的旧内核,创建了一个新内核,并将多个URL放入seed.txt中,然后再次启动Nutch进行新的爬网。但是,我尽一切努力获得了先前测试的结果。如何删除之前的搜索,如何启动Nutch来搜寻我在seed.txt中输入的新URL?

感谢您的回答。

solr nutch
1个回答
0
投票

您应该删除crawl/目录(如果该目录名为crawl)。此目录包含先前爬网的数据(在发送到Solr之前)。运行搜寻命令并且Nutch将已存储的数据发送到Solr后,可能没有新内容。

© www.soinside.com 2019 - 2024. All rights reserved.