使用S3作为坚果存储系统

问题描述投票：0回答：2

我想将S3用作我的Apache操作系统的文件系统。我知道hadoop可以配置为使用S3作为其fs，但是我找不到找到适当的方法来配置它。有人可以为我指出正确的方向，还是可以快速介绍一下该方法。或者，能够使用readseg命令将数据转储到s3中将是一个解决方案，而不是将整个文件系统都包含在s3中，这可能吗？

欢呼声

hadoop

amazon-s3

nutch

2个回答

1
投票

Nutch在（伪）分布式模式下运行时证明可以与基础Hadoop安装支持的任何文件系统一起使用，包括S3或S3A。

请注意：

它在本地模式下运行时无法立即使用，因为默认情况下所需的库不是Nutch的依赖项。您需要将所有必需的库添加为IVY托管依赖项，然后重新编译Nutch。
在以前的Nutch版本中存在一些问题，其中HDFS已硬连接到代码中。此问题已在1.14中修复，请参见NUTCH-2281。
Nutch使用文件系统“ mv”来自动安装CrawlDb和LinkDb的当前版本。在S3上，这意味着复制非常慢的文件。将CrawlDb保留在HDFS上并不时将其分配到S3可能会更有效。
段具有唯一的名称，因此它们可以有效地保留在S3上。还可以看看documentation of S3A committers。

0
投票

理论上，如果您添加fs.s3a.impl的键值并修改core-site.xml fs.defaultFS以指向S3存储桶路径，则它应该起作用。这个问题不仅仅限于Nutch

https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html

使用S3作为坚果存储系统

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2