如何搜索Hadoop中分布在多台服务器上的大量文件(假设有10万个文件)?

问题描述 投票:0回答:1

苹果面试真题。

假设你有100,000个文件分布在多个服务器上,你想处理所有的文件?你将如何在Hadoop中进行处理?

hadoop hadoop2
1个回答
1
投票

首先把所有的文件通过ftp或ftp等方式收集到Hdfs(可能是s3)hive中。

然后你就有了统一的存储hdfs.你可以根据你的需求应用mapreduce或spark等来处理它们。

没有人可以做任何事情,如果他们有各种各样的数据源服务器,而不是收集它们(称为数据摄取),然后使用任何可用的框架进行数据处理。

© www.soinside.com 2019 - 2024. All rights reserved.