PigStorage在Hadoop中如何使用,为什么?

问题描述 投票:0回答:1

我很困惑,为什么在Hadoop中使用Pig处理数据时,需要在Hadoop HDFS上再加一个存储层PigStorage?还有PigStorage中存储的文件是分布式的吗?谁能帮忙解释一下?

谢谢你。

hadoop apache-pig
1个回答
1
投票

PigStorage是 不存. 它不存储在任何地方;它读取和加载 明文档案.

LOAD 到Avro或ORC几乎总是更好的。

enter image description here

它只是文件系统数据上的别名和模式的元数据(文件系统可以不只是HDFS)。

A = LOAD '/path/file.txt' USING PigStorage()  // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage()  // store ORC back on same filesystem
© www.soinside.com 2019 - 2024. All rights reserved.