如何使用Hadoop维护模式每季度变化的历史数据?

问题描述 投票:0回答:1

我有一个json输入文件,用来存储调查数据(客户的反馈)。

  • json文件中的列数可以不同

    例如,在第一季度可以有70列,在下一季度可以有100列,以此类推。

  • 我想把所有这些季度数据存储在同一个Hdfs表里。

是否有一种方法来维护历史,无论是通过下降和重新创建表与改变模式?

如果列的长度减少了,比如说在第三季度,我们只得到30列,它将如何表现?

pandas apache-spark hadoop talend
1个回答
0
投票

首先,在HDFS中,你不存储表,只存储文件。你在hive impala等文件上面创建表。

有些格式在读取时支持schema合并,例如 镶木地板一般来说,你将能够用超级列集重新创建你的表。在Impala中,你也有类似的功能 模式演变.

© www.soinside.com 2019 - 2024. All rights reserved.