nutch 相关问题

Nutch是一款成熟,生产就绪的Web爬虫。 Nutch支持细粒度配置,依赖于Apache Hadoop™数据结构,这对于批处理非常有用。

在tika-config.xml中更改解析器会导致“无法加载org.apache.tika.parser.DefaultParser”

我正在尝试在Nutch中启用Tika的BoilerpipeContentHandler解析器以从网页提取文章文本。为此,我已经配置了tika-config.xml以排除HTMLParser并激活...

回答 1 投票 0

用于特定主题的Apachenutch爬网

我是该领域的新手,作为一名学生,我们必须创建一个特定主题的Web门户。第一步,我们必须爬网(或其一部分),以便我们可以在......>

回答 2 投票 0

为什么Apache Nutch清理作业在云模式下无法运行Apache Solr

我正在尝试在云模式下使用Apache Solr 7.6.0设置Apache Nutch 1.15。在启动清理作业(CleaningJob.java)之前,爬行脚本(nutch / bin / crawl)可以正常工作。然后它就无故失败了...

回答 1 投票 0

Stanford NLP安装

我正在使用开源Nutch-1.4以及Solr和Hadoop设计定制的Web搜索引擎。我的朋友应该对NLP零件的设计负责,但是由于他退出了,我...

回答 2 投票 0

在Nutch1.16上没有获取任何错误的请求

我是apache-nutch的新手,并且想在stackoverflow上抓几个问题。我的urls / seed.txt文件包含以下数据:-/ questions / 58763948 /设置列表项正在将其转换为元组/ questions / ...

回答 1 投票 0

Nutch / Hadoop:regex-normalize.xml和regex-urlfilter.txt即使存在也没有发现错误

我正在尝试通过Eclipse进行适当的调整,并遵循了一些教程进行设置。我目前停留在nullpointerexception上,我认为这是由于regex-urlfilter引起的。...

回答 1 投票 0

regex-urlfilter.txt文件中的Apache Nutch url

我是新来的爬行者,特别是Apache坚果。阿帕奇坚果的配置确实很复杂。我已经通过apache进行了很多研究,并找到了regex-urlfilter.txt文件...

回答 1 投票 0

在天蓝色的地方部署本地Elasticsearch集群

我正在使用Apache Nutch来抓取我的一个项目的网站。数据和内容已成功爬网。对于索引和搜索查询,我正在使用Elasticsearch集群来处理数据...

回答 1 投票 -1

当Nutch的为导向网址抓取ID在SOLR申请是由不同的网址

我使用Nutch的1.13和5.5 SOLR大部分时间URL字段= ID字段时SOLR Nutch的索引文件,但我所看到的情况下,当ID是URL字段不同,它发生在当...

回答 1 投票 0

Apache Nutch 2.3.1,增加减速机内存

我已经设置了一个小型集群,如果Hadoop与Hbase for Nutch 2.3.1。 hadoop版本是2.7.7,Hbase是0.98。我已经定制了一个hadoop工作,现在我必须为减速器任务设置内存...

回答 1 投票 0

在nutch 1.13中的某些https url的javax.net.ssl.SSLHandshakeException

我尝试抓取http / https的种子网址但是对于少数https网址我得到以下错误FetcherThread INFO api.HttpRobotRulesParser(168) - 无法获取robots.txt for https://corporate.douglas.de / ...

回答 2 投票 0

配置Nutch写入Apache Kudu

我正在尝试将Apache Nutch配置为写入Apache Kudu,但我无法找到有关如何执行此操作的任何信息。我知道我可以写信给Cassandra和HBase,但是没有关于Kudu的信息。 ...

回答 1 投票 -1

运行apache nutch时java.lang.ClassNotFoundException:org.apache.commons.jexl2.JexlContext

我试图通过java运行apache nutch并且我包含了运行apatche nutch 1.15版本所需的所有jar,它给了我以下错误java.lang ....

回答 1 投票 1

如何检索apache nutch抓取的数据到我的网站

我是apache nutch的新手。我已经通过apache nutch将两个网站数据抓取到solr并执行查询并以json形式获取。我会在网站上显示那些已抓取的数据。我刚开始探索......

回答 2 投票 0

如何修复此错误运行Nutch 1.15 ERROR fetcher.Fetcher - Fetcher工作没有成功,工作状态:FAILED,原因:NA

当我使用Nutch 1.15开始爬行时:/ usr / local / nutch / bin / crawl --i -s urls / seed.txt crawldb 5然后它开始运行,当它尝试获取时我收到此错误:2019-02-10 15:29:......

回答 1 投票 0

Nutch 1.14 - 不抓取页面中的所有链接

我有nutch 1.14使用Solr 6.4.2 Nutch没有抓取(通过)页面中的所有链接 db.ignore.internal.links 假

回答 1 投票 0

Apache Nutch 1.15 Solr 7.7.0索引失败DocValuesField太大,必须<= 32766

我正在尝试使用Apache Nutch 1.15抓取一些网站并将其编入索引以使用Solr 7.7.0进行搜索,遵循本教程https://wiki.apache.org/nutch/NutchTutorial。我在Windows 10上使用cygwin64 ....

回答 1 投票 0

Hadoop Container甚至100%完成失败

我已经设置了一个小集群Hadoop 2.7,Hbase 0.98和Nutch 2.3.1。我编写了一个自定义作业,简单地首先组合相同域的文档,之后域的每个URL(来自缓存,即列表)是......

回答 1 投票 0

HBase master没有运行异常

我收到了以下错误。我正在尝试将HBase连接为Nutch爬虫的后端。 13/10/21 13:11:13 INFO client.HConnectionManager $ HConnectionImplementation:getMaster尝试0 of 10 ...

回答 2 投票 1

从特定网站中提取新闻的Crawler / Scraper [关闭]

从新闻网站地址开始,我需要一个java API来检查该网站中的所有新闻页面,并能够对它们进行分类,然后为每个类别提取新闻。我已经 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.