Apache Nutch REST API从运行Nutch的服务器中检索数据?

问题描述 投票:0回答:1

我正在使用nutst REST API在单独的服务器上运行nutch搜索。我想将已爬网的数据检索回到我的本地计算机。有没有一种方法可以使用nutch dump功能来转储数据并通过API检索它,还是最好将数据索引到Solr中并从Solr中检索它。感谢您的帮助。

solr nutch
1个回答
0
投票

当前,REST API不提供此类功能。 REST API的主要目的是配置抓取作业并为其提供午餐。从本质上讲,它将允许您设置新的爬网作业的配置并进行管理(在某种程度上)。

抓取的数据的传输由您决定。话虽如此,我确实有一些建议:

  • 如果您要将数据发送到Solr / ES(或任何其他索引器),我建议直接从那里获取数据。两个Solr&ES都已经提供了REST API,还有一个额外的好处,就是您可以过滤要“复制”的数据。

  • 如果您以分布式模式(即在Hadoop集群中)运行Nutch,请尝试使用Hadoop库将数据复制到目标位置。

如果这都不适用,那么也许值得考虑依赖诸如rsync之类的东西。

© www.soinside.com 2019 - 2024. All rights reserved.