Nutch hadoop map减少java堆空间outOfMemory

问题描述投票：0回答：1

我正在运行Nutch 1.16，Hadoop 2.83，Solr 8.5.1搜寻器设置，该设置可以运行多达几百万个索引页面。然后，我在MapReduce作业期间遇到了Java堆空间问题，但似乎无法找到增加该堆空间的正确方法。我尝试过：

开始进行坚果爬网时传递-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m。
编辑NUTCH_HOME / bin / crawl commonOptions mapred.child.java.opts到-Xmx16000m
将HADOOP_HOME / etc / hadoop / hadoop-site.xml mapred.child.java.opts设置为-Xmx160000m -XX:+UseConcMarkSweepGC
将所述hadoop-site.xml复制到我的nutch / conf文件夹中

似乎没有任何改变。在搜寻过程的同一点，我遇到了相同的堆空间错误。我尝试将提取程序线程从25减少到12，并在提取时关闭解析。一切都没有改变，我没有主意。我有64GB RAM，所以这真的不是问题。请帮助;）

java

hadoop

mapreduce

nutch

1个回答

0
投票

通过-D ...

还需要使用“ mapreduce.reduce.memory.mb”和“ mapreduce.reduce.java.opts”为reduce任务设置堆空间。请注意，最近在此方面对bin / crawl脚本进行了改进，请参见NUTCH-2501和最近的bin/crawl script。

3./4。设置/复制hadoop-site.xml

不应该在“ mapred-site.xml”中设置吗？