我有一个json输入文件,用来存储调查数据(客户的反馈)。
json文件中的列数可以不同
例如,在第一季度可以有70列,在下一季度可以有100列,以此类推。
是否有一种方法来维护历史,无论是通过下降和重新创建表与改变模式?
如果列的长度减少了,比如说在第三季度,我们只得到30列,它将如何表现?
首先,在HDFS中,你不存储表,只存储文件。你在hive impala等文件上面创建表。
有些格式在读取时支持schema合并,例如 镶木地板一般来说,你将能够用超级列集重新创建你的表。在Impala中,你也有类似的功能 模式演变.