nutch 相关问题

Nutch是一款成熟,生产就绪的Web爬虫。 Nutch支持细粒度配置,依赖于Apache Hadoop™数据结构,这对于批处理非常有用。

Nutch问题执行爬行

我想让nutch 1.11执行爬行。我正在使用cygwin在Windows 7中运行这些命令.Nutch正在运行,我从运行bin / nutch获得结果,但我一直收到错误...

回答 4 投票 1

Google Cloud Search:Apache Nutch连接器,未激活IndexWriters - 检查您的配置

请参阅此线程主题我也尝试使用Google Cloud Search但问题不同。我坚持“没有激活IndexWriters - 检查你的配置”我在例子中添加了conf / nutch-site.xml ...

回答 1 投票 0

Windows 7上Cygwin上的Nutch 1.12 - NullPointerException

我正在努力为工作项目第一次运行nutch。目前,计划是从一台机器(Windows 7)运行nutch,以便从十几个网站上搜索上下文。下面......

回答 1 投票 1

Nutch作为备用蜘蛛与自定义处理管道

我想使用Apache Nutch作为蜘蛛,它只获取给定的URL列表(没有爬行)。网址将存储在Redis中,我希望Nutch不断从列表中弹出它们......

回答 1 投票 0

为什么nutch索引到错误的solr集合,即使设置了solr.server.url参数?

将nutch 1.15与solr8.0集成,但是当我使用以下命令时,nutch / bin / crawl -i -D solr.server.url = http://192.168.199.109:8983 / solr / csdn -s ./csdn-seed / ./data/csdn 1索引已爬行...

回答 1 投票 0

Apache Hadoop与Gora的组合功能

我有一个简单的Hadoop,Nutch 2.x,Hbase集群。我必须写一份MR工作,找到一些统计数据。这是两步工作,即我认为我也需要合并器功能。在简单的Hadoop工作中,它......

回答 1 投票 3

Nutch没有解析整个网站,只解析了第一个网址

我正在尝试使用Nutch Fetcher来获取整个网站,但它只加载第一个URL:import org.apache.nutch.fetcher.Fetcher; new Fetcher(conf).fetch(segment,1);这就是我在...中看到的

回答 1 投票 0

Apache Nutch Hadoop集成

我根据https://wiki.apache.org/nutch/NutchHadoopTutorial提供的链接配置了apache-nutch-1.15和hadoop以在部署模式下运行,但是当我尝试运行下面的命令hadoop jar时......

回答 1 投票 2

使用nutch 0.9创建搜索引擎的问题

我已经按照这里的步骤进行操作。对于步骤3(e),下面是我的conf / nutch-site.xml searcher.dir C:\的Nutch-0.9 \爬\ &...

回答 1 投票 0

SolrRecord从Nutch添加到Index的时间

我正在运行Solr 5.4.1和Nutch 1.11我也使用Apache Nifi,特别是GetSolr处理器。我知道我的SolrRecord中的tstamp是索引值的时间...

回答 1 投票 0

使用nutch抓取图像及其元数据并将其索引到solr中

我想建立一个基于迷你图像的搜索引擎,我可以提供图像文件,它将在solr中搜索类似的图像。我正在使用nutch进行爬行部分并将数据索引到...

回答 1 投票 0

在Eclipse中运行Nutch - 缺少构建文件夹

嗨,我正在按照本教程尝试在Eclipse中运行Nutch并逐步运行Nutch。我完成了这一步(Nutch 1.X)没有问题:svn co https://svn.apache.org/repos/asf/nutch/trunk cd ...

回答 1 投票 0

如何在简单的Java应用程序中包含Nutch?

我有一个简单的浏览器“hello world”applet被调用:import java.awt.Graphics; public class CrawlCrowd extends java.applet.Applet {public void init(){resize(150,25); } ...

回答 1 投票 -2

如何使用apache nutch 1.3 api编写用于抓取网站的java代码?

我想用java和nutch 1.3 api编写一个程序来抓取我在网上搜索过的网站,但是没有示例代码我该怎么办呢?谢谢

回答 1 投票 1

Nutch:在Java中调用,而不是命令行?

我是否很厚或者是否真的无法以编程方式通过某些Java代码调用Apache Nutch?关于如何执行此操作的文档(或指南或教程)在哪里?谷歌让我失望了。 ...

回答 1 投票 8

apache nutch中的依赖关系问题

试图将apache nutch与hadoop集成。构建apache-nutch-1.15.job文件后,使用ant驻留在运行时文件夹中并尝试运行脚本bin / crawl但是遇到了一些依赖性错误。 ...

回答 1 投票 2

如何修复.locked已存在于nutch crawler中?

我是nutch的初学者。当我使用bin / nutch crawl命令重新抓取时,我得到了.locked的错误已经存在。以下是我的例外。链接反转/ home / crawler_user / ...

回答 1 投票 0

使用Nutch转储外国图像

我正在尝试使用Apache Nutch转储完整的网站内容。它适用于来自同一域的html页面和图像,但它不会转储来自其他网站的图像,例如如果我有一个域名网站...

回答 1 投票 0

线程“main”java.lang.ClassNotFoundException错误中的异常

我运行hadoop jar /home/apache-nutch-2.3.1/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5但是我得到了以下错误:线程“main”中的异常...

回答 1 投票 0

在Nutch 1.x中拒绝了URL列表

我试图从Nutch 1.x版本的seed.txt获取所有被拒绝的URL的列表。使用nutch注入命令,我可以知道被拒绝的URL数量,但有没有办法获得...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.