我正在运行Nutch(1.16)/ Solr(8.5.1)爬行索引系统。我大约使用26000个URL作为种子列表,到目前为止,使用./bin/crawl -i -s ./urls data 500
索引了约100万个页面。今天早上,segments文件夹已增加到120GB,对于一百万个页面来说似乎已经很多了。我读到的here每1亿页1TB是一个粗略的空间指导,因此我的运行速度是单独段的10倍。我还阅读了here,如果它们已经合并到Solr中,并且从长远来看只需要linkdb和crawldb,则可以删除这些段。但是可悲的是,导致该结论的对话缺失了。
我删除了segments文件夹,并再次开始该过程以获取干净的数字,而没有测试运行遗留的剩余部分。向Solr索引添加另外250.000页后,segments文件夹又增加到40GB。
所以我的问题:
我可以根据需要提供配置文件,但是我运行的是非常普通的配置。我将提取程序线程提高到25,并将可用RAM提高到24GB。
我正在运行Nutch(1.16)/ Solr(8.5.1)爬行索引系统。我正在使用大约26000个URL作为种子列表,并且到目前为止已使用./bin/crawl -i -s ./urls数据500索引了约100万个页面。今天上午...
- 当将迭代合并到Solr中时,通常可以删除段文件吗?>