我对这个术语有点困惑,一个字节偏移值,在Hadoop Map reduce程序中被视为map键。
首先,字节偏移值是多少?
第二,它是如何生成的,以及如何查看这个字节偏移值?
字节偏移量是从一行开始计算的字符数。
例如,这一行
what is byte offset?
将具有19的字节偏移量。这在hadoop中用作键值
基本上,偏移是一个整数,用于找到相对于基地址的距离(绝对地址)。
假设具有以下数据的文本文件
计算机科学世界 量子计算
现在第一行的偏移量为0,hadoop作业的输入为<0,计算机科学世界>第二行的偏移量<23,量子计算>
每当我们将文本文件传递给hadoop作业时。它在内部计算字节偏移量。
字节偏移量是从零开始的字节数。在谈论Hadoop时,一个字符或空格通常是一个字节。但是如果你想了解更多信息,请查看这个问题:How many bits in a character?