nutch 相关问题

Nutch是一款成熟,生产就绪的Web爬虫。 Nutch支持细粒度配置,依赖于Apache Hadoop™数据结构,这对于批处理非常有用。

Nutch 1.19 / Solr 9.4.0 如何将Nutch指向Solr实例?

我一直在尝试按照此处的教程进行 Solr 和 Nutch 设置。 然而,我被困在教程的最后,它说: 之后,您需要将 Nutch 指向 Solr 实例: (坚果...

回答 1 投票 0

nutch 错误:拥有多个根是非法的(结尾中的开始标记?)

$ bin/nutch 注入crawl/crawldb url SLF4J:类路径包含多个 SLF4J 绑定。 SLF4J:在 [jar:file:/C:/Users/Gjergj%20Kadriu/Documents/apache-nutch-1.19/lib/log4j-slf4j-imp... 中找到绑定...

回答 1 投票 0

Nutch 1.19 Webgraph命令错误:OutlinkDb作业没有成功,作业id:job_local306968781_0001,作业状态:FAILED,原因:NA

我正在尝试在执行爬网后在 Apache Nutch 中创建一个 webgraph。这是我用来创建 webgraph 的命令。 bin/nutch webgraph -segmentDir crawl/segments/ -webgraphdb crawl/

回答 0 投票 0

Apache Nutch Crawler - 只在现有表格中抓取新注入的URLs

我必须通过Nutch抓取一些URLs。为此,我必须每次都提供种子URLs。因此,他们每次都会被注入到同一个表中。现在,随着时间的流逝,数据库将增加......。

回答 1 投票 0

Nutch hadoop map减少java堆空间outOfMemory

我正在运行Nutch 1.16,Hadoop 2.83,Solr 8.5.1搜寻器设置,该设置可以运行多达几百万个索引页面。然后我在MapReduce作业期间遇到了Java堆空间问题,并且我...

回答 1 投票 0

Nutch Segments磁盘空间需求快速增长

我正在运行Nutch(1.16)/ Solr(8.5.1)爬行索引系统。我正在使用大约26000个URL作为种子列表,并且到目前为止已使用./bin/crawl -i -s ./urls数据500索引了约100万个页面。今天上午...

回答 1 投票 0

Nutch 1.6不会在seed.txt中搜索新条目

我设置了Solr 7.7.1和Nutch 1.6并进行了测试搜索。为此,我在seed.txt中放置了一个URL,一切正常。测试完成后,我删除了Solr中的旧内核,创建了一个新内核,然后放置了多个...

回答 1 投票 0

无法找到或加载主类org.apache.nutch.tools.FileDumper

我正在尝试通过Python函数发出Apache Nutch命令,该命令通过subprocess模块 在Windows和Cygwin上运行。但是,尽管可以找到适当的答案,但似乎无法运行转储...

回答 1 投票 0

触发在Facebook时间线上加载内容的事件

我正在研究Apache Nutch修改项目。我们已经将Nutch的原始模块换成了使用HtmlUnit构建的模块。我需要下载整个Facebook用户网站(例如http://www.facebook.com / ...

回答 1 投票 0

将一个字段转换为Solr中的多个字段

我正在尝试从Nutch 1.16爬网将某些数据索引到Solr,但是某些字段要么具有冗余数据(即“ metatag.author”:[“ someone”,“ someone”]“),要么它们只是将每个元数据混搭...

回答 1 投票 0

尽管字段被标记为索引= true,Solr仍无法搜索原始的爬网条目

我同时运行Nutch 1.16搜寻器实例和Solr版本8.3.0。我已经能够搜寻本地目录中的文件,并编辑nutch-site.xml,从中提取一些元数据(尽管...

回答 1 投票 1

Jmeter与apache基准测试solr-nutch应用程序?

使用Jmeter或Apache基准测试作为我的系统的负载测试会更方便,而又不会导致系统崩溃。哪个更容易使用?我只需要知道平均或最大数量...

回答 1 投票 0

nutch 1.16在文件系统抓取中跳过文件:/目录样式的链接

[我正在尝试使用来自两个主教程(https://cwiki.apache.org/confluence/display/nutch/FAQ#FAQ -...]的示例在某些本地目录上作为爬行器运行>

回答 1 投票 0

Apache Nutch REST API从运行Nutch的服务器中检索数据?

我正在使用nutst REST API在单独的服务器上运行nutch搜索。我想将已爬网的数据检索回到我的本地计算机。有没有一种方法可以使用nutch dump功能来...

回答 1 投票 0

使用S3作为坚果存储系统

我想将S3用作我的Apache操作系统的文件系统。我知道hadoop可以配置为使用S3作为其fs,但是我找不到找到适当的方法来配置它。有人可以指出我的权利...

回答 2 投票 0

确保Nutch已抓取了特定域的所有页面

我正在使用Nutch从单个域收集所有数据。如何确保Nutch已抓取给定域下的每个页面?

回答 1 投票 0

Nutch爬行给出错误“来自http:// localhost:8983 / solr / nutch的服务器错误:java.lang.NullPointerException”

我正在尝试对网站进行爬网并使用Solr将其编入索引。我有一些使用UpdateRequestProcessor更新的自定义字段。我的自定义URP如下所示:FieldProcessorFactory.java包ved; ...

回答 2 投票 0

Nutch 1.6:CSVIndexWriter失败

我刚刚在Fedora 30上安装了Nutch 1.6。我完成了引导初始列表(注入),生成访存列表,解析,更新db和反向链接的步骤……在索引之前,我已经更新了...] >

回答 1 投票 0

如何在编制索引时禁用页面增强功能?

默认情况下,Nutch启用计分插件。据我了解,评分插件负责设置crawldb中每个网址的得分。此分数将以两种方式使用:...

回答 1 投票 0

[使用协议硒插件螺母时的javax.net.ssl.SSLHandshakeException

我正在尝试使用Apache Nutch硒驱动程序为该页面建立索引,但是在运行parsechecker命令时,它将引发SSLHandShake异常。 bin / nutch parsechecker -Dplugin.includes ='protocol -...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.