nutch 相关问题

Nutch是一款成熟,生产就绪的Web爬虫。 Nutch支持细粒度配置,依赖于Apache Hadoop™数据结构,这对于批处理非常有用。

如何索引nutch中的所有元标记

我已经安装了Nutch 1.9并将其配置为使用Solr 4.10.1成功爬网。我正在尝试将Nutch设置为索引元数据,如此处所述https://wiki.apache.org/nutch/IndexMetatags我如何...

回答 1 投票 1

更新旧的Nutch插件,以便能够在Nutch 2.3.1中使用Xpath解析

我正在使用apache Nutch 2.3.1开发一个项目,我需要能够从下载的html页面中提取特定数据。我发现了一个插件(parse-xml NUTCH-185)可以帮助我...

回答 1 投票 0

种子网址爬行整个Youtube

我正在尝试使用Apache Nutch抓取整个youtube.com。问题是我需要大量的种子网址,以确保几乎所有的Youtube网址都被抓取。但我找不到任何站点地图或......

回答 1 投票 1

Apache Nutch 2.3和MySQL

有没有人试过使用Apache Nutch 2.3和MySQL?有些人说Nutch 2.3不能再使用MySQL了,但是看看ivy.xml中的组件,MySQL还是......

回答 1 投票 1

将Nutch爬网数据索引到Elasticsearch时出错

我正在使用Nutch 1.14并试图将一个小的Web爬行索引到ES v5.3.0中并且我不断收到此错误:ElasticIndexWriter elastic.cluster:elastic prefix cluster elastic.host:hostname ...

回答 1 投票 0

如何在以伪分布式模式安装的Hadoop中运行Nutch

我在我的Ubuntu上安装了Nutch 1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道如何在hadoop中运行它?我有Hadoop ......

回答 1 投票 0

在hadoop上运行nutch,nutch的日志在哪里?

我的荷兰人在hadoop上运行,我想查看nutch运行日志,但找不到像独立的nutch日志那样的输出日志。

回答 2 投票 3

nutch索引元数据没有索引

我试图从Nutch的meta标签索引一些元数据。我按照一步一步的教程Nutch - Parse Metatags,但没有索引。我已经像一步一步配置了这个插件......

回答 1 投票 1

solr 5.5.0与nutch 1.13的错误集成:'连接池关闭'

当我尝试将'Solr'与'Nutch'集成时出现问题:'Nutch'的版本:'Solr'的1.13版本:5.5.0(根据官方文档https://wiki.apache.org/的建议) Nutch的/ ...

回答 2 投票 0

如何在Nutchx2上使用轮数

我也有同样的问题。我只使用此命令进行整个过程:crawl urls / ucuzcumSeed.txt ucuzcum http:// localhost:8983 / solr / ucuzcum / 10 crawl [ ]&...

回答 1 投票 0

在Nutch中每个站点爬一定深度

我正在尝试使用Nutch V1.12抓取大量网站,而我抓取网站没有问题我无法控制爬网,就像我想要的那样。问题主要在于没有......

回答 2 投票 0

Nutch和HBase配置错误

我试图让nutch和hbase基于这个docker镜像工作:https://hub.docker.com/r/cogfor/nutch/我得到一个异常,我尝试注入一个URL文件:InjectorJob:从...开始。 ..

回答 1 投票 0

Apache Nutch 2.3.1检查点不起作用

我已经将apache Nutch 2.3.1配置为单节点集群(Hadoop 2.7.x和hbase 1.2.6)。我必须检查其检查点功能。根据我的信息,恢复在Fetch和...中可用

回答 1 投票 3

Nutch 1.12在Windows上的Cygwin上

英语不是我的母语;请原谅我的任何错误。我尝试在Windows上运行Cygwin上的nutch 1.12,然后我跟着Nutch Turorial。但是当我尝试执行命令行“bin / nutch ...

回答 1 投票 1

无法启动HBase start_hbase.sh:找不到命令

到目前为止,尝试使Nutch + Solr工作是徒劳的。我很难理解如何用nutch和solr解决这个问题。我已经按照我能找到的所有教程...

回答 2 投票 0

无法使用php exec函数执行nutch crawl命令

我必须使用php exec运行Nutch抓取命令,但它显示“0错误:JAVA_HOME未设置”该命令与终端正常工作。我在crawl.php中尝试了以下代码,其中apache-nutch-1 ....

回答 1 投票 1

使用Java代码与Apache Nutch 1.9进行爬网

我们开发了一个数据处理管道,使用Apache Nutch 1.4在给定一组配置的URL的情况下对Web数据进行爬网。管道随后应用一系列mapreduce任务来处理......

回答 1 投票 0

如何在Java应用程序中使用Nutch API?

我想在我的java应用程序中使用Nutch API来从网站抓取pdf链接进行分析,如何在我的java应用程序中使用Nutch jar呢?我能举个例子吗?

回答 1 投票 4

如何通过Java应用程序使用Apache Nutch?

我必须使用apache nutch设计基于Java / Java EE的搜索引擎。我在互联网上搜索过,我发现很多关于安装apache nutch的文章,却找不到任何...

回答 2 投票 4

Nutch API建议

我正在开发一个项目,我需要一个成熟的爬虫来完成一些工作,而我正在为此目的评估Nutch。我目前的需求相对简单:我需要一个能够......的爬虫

回答 1 投票 6

© www.soinside.com 2019 - 2024. All rights reserved.