Nutch Segments磁盘空间需求快速增长

问题描述 投票:0回答:1

我正在运行Nutch(1.16)/ Solr(8.5.1)爬行索引系统。我大约使用26000个URL作为种子列表,到目前为止,使用./bin/crawl -i -s ./urls data 500索引了约100万个页面。今天早上,segments文件夹已增加到120GB,对于一百万个页面来说似乎已经很多了。我读到的here每1亿页1TB是一个粗略的空间指导,因此我的运行速度是单独段的10倍。我还阅读了here,如果它们已经合并到Solr中,并且从长远来看只需要linkdb和crawldb,则可以删除这些段。但是可悲的是,导致该结论的对话缺失了。

我删除了segments文件夹,并再次开始该过程以获取干净的数字,而没有测试运行遗留的剩余部分。向Solr索引添加另外250.000页后,segments文件夹又增加到40GB。

所以我的问题:

  1. 当将迭代合并到Solr中时,通常可以删除段文件吗?>
  2. 为什么不将它们自动删除。就目前情况而言,我需要每隔几天清空该文件夹。
  3. 是否有某种方法可以防止段增长得如此之快,或者更好的设置是在Solr中建立索引后会自动删除段。
  4. 似乎我所做的事情根本上是错误的,我的细分市场如此之快地增长如此之大。
  5. 我可以根据需要提供配置文件,但是我运行的是非常普通的配置。我将提取程序线程提高到25,并将可用RAM提高到24GB。

我正在运行Nutch(1.16)/ Solr(8.5.1)爬行索引系统。我正在使用大约26000个URL作为种子列表,并且到目前为止已使用./bin/crawl -i -s ./urls数据500索引了约100万个页面。今天上午...

solr web-crawler nutch
1个回答
0
投票
  1. 当将迭代合并到Solr中时,通常可以删除段文件吗?>
© www.soinside.com 2019 - 2024. All rights reserved.