Nutch Segments磁盘空间需求快速增长

问题描述投票：0回答：1

我正在运行Nutch（1.16）/ Solr（8.5.1）爬行索引系统。我大约使用26000个URL作为种子列表，到目前为止，使用./bin/crawl -i -s ./urls data 500索引了约100万个页面。今天早上，segments文件夹已增加到120GB，对于一百万个页面来说似乎已经很多了。我读到的here每1亿页1TB是一个粗略的空间指导，因此我的运行速度是单独段的10倍。我还阅读了here，如果它们已经合并到Solr中，并且从长远来看只需要linkdb和crawldb，则可以删除这些段。但是可悲的是，导致该结论的对话缺失了。

我删除了segments文件夹，并再次开始该过程以获取干净的数字，而没有测试运行遗留的剩余部分。向Solr索引添加另外250.000页后，segments文件夹又增加到40GB。

所以我的问题：

当将迭代合并到Solr中时，通常可以删除段文件吗？>
为什么不将它们自动删除。就目前情况而言，我需要每隔几天清空该文件夹。
是否有某种方法可以防止段增长得如此之快，或者更好的设置是在Solr中建立索引后会自动删除段。
似乎我所做的事情根本上是错误的，我的细分市场如此之快地增长如此之大。

我可以根据需要提供配置文件，但是我运行的是非常普通的配置。我将提取程序线程提高到25，并将可用RAM提高到24GB。

我正在运行Nutch（1.16）/ Solr（8.5.1）爬行索引系统。我正在使用大约26000个URL作为种子列表，并且到目前为止已使用./bin/crawl -i -s ./urls数据500索引了约100万个页面。今天上午...

solr

web-crawler

nutch

1个回答

0
投票

当将迭代合并到Solr中时，通常可以删除段文件吗？>

Nutch Segments磁盘空间需求快速增长

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1