我是Map-reduce的新手,我想了解什么是序列文件数据输入?我在Hadoop书中学习过,但我很难理解。
首先,我们应该了解SequenceFile试图解决哪些问题,然后SequenceFile如何帮助解决这些问题。
Map任务通常一次处理一个输入块(使用默认的FileInputFormat)。
[文件数量越多,所需的Map任务数量就越多,作业时间可能会变慢。
这两种情况需要不同的解决方案。
HAR文件
SequenceFile
例如,假设有10,000个100KB文件,那么我们可以编写一个程序将它们放入单个SequenceFile中,如下所示,您可以在其中使用filename作为键,而内容可以作为值。
((来源:csdn.net)
一些好处:
支持的压缩,文件结构取决于压缩类型。