使用S3作为坚果存储系统

问题描述 投票:0回答:2

我想将S3用作我的Apache操作系统的文件系统。我知道hadoop可以配置为使用S3作为其fs,但是我找不到找到适当的方法来配置它。有人可以为我指出正确的方向,还是可以快速介绍一下该方法。或者,能够使用readseg命令将数据转储到s3中将是一个解决方案,而不是将整个文件系统都包含在s3中,这可能吗?

欢呼声

hadoop amazon-s3 nutch
2个回答
1
投票

Nutch在(伪)分布式模式下运行时证明可以与基础Hadoop安装支持的任何文件系统一起使用,包括S3或S3A。

请注意:

  • 它在本地模式下运行时无法立即使用,因为默认情况下所需的库不是Nutch的依赖项。您需要将所有必需的库添加为IVY托管依赖项,然后重新编译Nutch。
  • 在以前的Nutch版本中存在一些问题,其中HDFS已硬连接到代码中。此问题已在1.14中修复,请参见NUTCH-2281
  • Nutch使用文件系统“ mv”来自动安装CrawlDb和LinkDb的当前版本。在S3上,这意味着复制非常慢的文件。将CrawlDb保留在HDFS上并不时将其分配到S3可能会更有效。
  • 段具有唯一的名称,因此它们可以有效地保留在S3上。还可以看看documentation of S3A committers

0
投票

理论上,如果您添加fs.s3a.impl的键值并修改core-site.xml fs.defaultFS以指向S3存储桶路径,则它应该起作用。这个问题不仅仅限于Nutch

https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html

© www.soinside.com 2019 - 2024. All rights reserved.