如何在编制索引时禁用页面增强功能?

问题描述 投票:0回答:1

默认情况下,Nutch启用scoring-opic插件。据我了解,评分插件负责设置crawldb中每个网址的得分。此分数将以两种方式使用:

  1. [使用-topN生成新段(获取列表)期间,分数确定哪些网址将成为获取列表的一部分(那些分数最高的网址将成为获取列表的一部分)。
  2. 在使用indexer-solr插件索引到Solr期间,该分数将用于设置索引到Solr的文档的提升。

如果我对以上任何内容有误,请纠正我。

对于我的用例:

  1. [我想在索引到Solr时禁用增强功能。

  2. 因为我只抓取几个URL,所以我不希望每个URL外部的链接影响到得分。例如,如果存在从http://siteA.comhttp://siteB.com的链接,则siteB的分数应该not不受影响。而如果有从http://siteA.com/firsthttp://siteA.com/second的链接,我希望http://siteA.com/second的分数增加。

我可以调整哪些设置来实现这两个目标?

solr nutch
1个回答
0
投票

关于第一个问题,您可以从Solr Index Writer映射中删除boost字段(看一下https://cwiki.apache.org/confluence/display/nutch/IndexWriters#Mapping_section)。这应该避免将字段发送到Solr。

关于内部/外部链接的URL评分,您可以尝试更改nutch-site.xml文件中的评分配置。默认情况下,内部/外部链接都设置为1。

© www.soinside.com 2019 - 2024. All rights reserved.