Nutch hadoop map减少java堆空间outOfMemory

问题描述 投票:0回答:1

我正在运行Nutch 1.16,Hadoop 2.83,Solr 8.5.1搜寻器设置,该设置可以运行多达几百万个索引页面。然后,我在MapReduce作业期间遇到了Java堆空间问题,但似乎无法找到增加该堆空间的正确方法。我尝试过:

  1. 开始进行坚果爬网时传递-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m
  2. 编辑NUTCH_HOME / bin / crawl commonOptions mapred.child.java.opts到-Xmx16000m
  3. 将HADOOP_HOME / etc / hadoop / hadoop-site.xml mapred.child.java.opts设置为-Xmx160000m -XX:+UseConcMarkSweepGC
  4. 将所述hadoop-site.xml复制到我的nutch / conf文件夹中

似乎没有任何改变。在搜寻过程的同一点,我遇到了相同的堆空间错误。我尝试将提取程序线程从25减少到12,并在提取时关闭解析。一切都没有改变,我没有主意。我有64GB RAM,所以这真的不是问题。请帮助;)

java hadoop mapreduce nutch
1个回答
0
投票
  1. 通过-D ...

还需要使用“ mapreduce.reduce.memory.mb”和“ mapreduce.reduce.java.opts”为reduce任务设置堆空间。请注意,最近在此方面对bin / crawl脚本进行了改进,请参见NUTCH-2501和最近的bin/crawl script

3./4。设置/复制hadoop-site.xml

不应该在“ mapred-site.xml”中设置吗?

© www.soinside.com 2019 - 2024. All rights reserved.