hadoop中的序列文件是什么？

Question

我是Map-reduce的新手，我想了解什么是序列文件数据输入？我在Hadoop书中学习过，但我很难理解。

Answer 1

首先，我们应该了解SequenceFile试图解决哪些问题，然后SequenceFile如何帮助解决这些问题。

在HDFS中

这两种情况需要不同的解决方案。

HAR文件

SequenceFile

SequenceFile的概念是将每个小文件放入一个较大的单个文件。
例如，假设有10,000个100KB文件，那么我们可以编写一个程序将它们放入单个SequenceFile中，如下所示，您可以在其中使用filename作为键，而内容可以作为值。
_{（（来源：csdn.net）}
一些好处：
1. NameNode上需要的内存较少。继续以10,000个100KB文件为例，
  - 使用SequenceFile之前，10,000个对象在NameNode中占据约4.5MB的RAM。
  - [使用SequenceFile，具有8个HDFS块的1GB SequenceFile之后，这些对象在NameNode中占据约3.6KB的RAM。
2. SequenceFile是可拆分的，因此适用于MapReduce。
3. 支持SequenceFile压缩。
支持的压缩，文件结构取决于压缩类型。
1. 未压缩
2. Record-Compressed：在将每个记录添加到文件时对其进行压缩。_{（（来源：csdn.net）}
3. 块压缩_{（来源：csdn.net）}
  - 等待数据达到要压缩的块大小。
  - 块压缩比记录压缩提供更好的压缩率。
  - 使用SequenceFile时，通常首选块压缩。
  - 这里的块与HDFS或文件系统块无关。