苹果面试真题。
假设你有100,000个文件分布在多个服务器上,你想处理所有的文件?你将如何在Hadoop中进行处理?
首先把所有的文件通过ftp或ftp等方式收集到Hdfs(可能是s3)hive中。
然后你就有了统一的存储hdfs.你可以根据你的需求应用mapreduce或spark等来处理它们。
没有人可以做任何事情,如果他们有各种各样的数据源服务器,而不是收集它们(称为数据摄取),然后使用任何可用的框架进行数据处理。