用于特定主题的Apachenutch爬网

问题描述 投票:0回答:2

我是该领域的新手,作为一名学生,我们必须创建一个特定主题的Web门户。第一步,我们必须爬网(或其一部分),以便我们可以为该主题收集链接,然后为它们建立索引并对其进行排名,最终目的是将其作为门户网站的数据库来提供。认为我无法提出正确的方法。可以说,我们门户网站的主题是“健康保险”。作为方法论和工具,我必须遵循哪些步骤?有没有一种方法可以指导特定内容的内容?我应该在我的seed.txt文件中填充大量链接,以分析大量链接,然后过滤内容吗?

您可以描述高级步骤,我将研究如何实现

solr web-crawler nutch
2个回答
0
投票

简介


0
投票
默认情况下,Nutch只关心下一个要爬网的链接(在当前或下一个爬网周期中)。 “下一个URL”的概念在Nutch中由计分插件控制。
© www.soinside.com 2019 - 2024. All rights reserved.