默认情况下,Nutch启用scoring-opic
插件。据我了解,评分插件负责设置crawldb中每个网址的得分。此分数将以两种方式使用:
-topN
生成新段(获取列表)期间,分数确定哪些网址将成为获取列表的一部分(那些分数最高的网址将成为获取列表的一部分)。indexer-solr
插件索引到Solr期间,该分数将用于设置索引到Solr的文档的提升。如果我对以上任何内容有误,请纠正我。
对于我的用例:
[我想在索引到Solr时禁用增强功能。
因为我只抓取几个URL,所以我不希望每个URL外部的链接影响到得分。例如,如果存在从http://siteA.com
到http://siteB.com
的链接,则siteB
的分数应该not不受影响。而如果有从http://siteA.com/first
到http://siteA.com/second
的链接,我希望http://siteA.com/second
的分数增加。
我可以调整哪些设置来实现这两个目标?
关于第一个问题,您可以从Solr Index Writer映射中删除boost
字段(看一下https://cwiki.apache.org/confluence/display/nutch/IndexWriters#Mapping_section)。这应该避免将字段发送到Solr。
关于内部/外部链接的URL评分,您可以尝试更改nutch-site.xml
文件中的评分配置。默认情况下,内部/外部链接都设置为1。