我想将S3用作我的Apache操作系统的文件系统。我知道hadoop可以配置为使用S3作为其fs,但是我找不到找到适当的方法来配置它。有人可以为我指出正确的方向,还是可以快速介绍一下该方法。或者,能够使用readseg命令将数据转储到s3中将是一个解决方案,而不是将整个文件系统都包含在s3中,这可能吗?
欢呼声
Nutch在(伪)分布式模式下运行时证明可以与基础Hadoop安装支持的任何文件系统一起使用,包括S3或S3A。
请注意:
理论上,如果您添加fs.s3a.impl
的键值并修改core-site.xml fs.defaultFS
以指向S3存储桶路径,则它应该起作用。这个问题不仅仅限于Nutch
https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html