我正在使用nutst REST API在单独的服务器上运行nutch搜索。我想将已爬网的数据检索回到我的本地计算机。有没有一种方法可以使用nutch dump功能来转储数据并通过API检索它,还是最好将数据索引到Solr中并从Solr中检索它。感谢您的帮助。
当前,REST API不提供此类功能。 REST API的主要目的是配置抓取作业并为其提供午餐。从本质上讲,它将允许您设置新的爬网作业的配置并进行管理(在某种程度上)。
抓取的数据的传输由您决定。话虽如此,我确实有一些建议:
如果您要将数据发送到Solr / ES(或任何其他索引器),我建议直接从那里获取数据。两个Solr&ES都已经提供了REST API,还有一个额外的好处,就是您可以过滤要“复制”的数据。
如果您以分布式模式(即在Hadoop集群中)运行Nutch,请尝试使用Hadoop库将数据复制到目标位置。
如果这都不适用,那么也许值得考虑依赖诸如rsync
之类的东西。