如何使用Hadoop维护模式每季度变化的历史数据？

问题描述投票：0回答：1

我有一个json输入文件，用来存储调查数据（客户的反馈）。

json文件中的列数可以不同
例如，在第一季度可以有70列，在下一季度可以有100列，以此类推。
我想把所有这些季度数据存储在同一个Hdfs表里。

是否有一种方法来维护历史，无论是通过下降和重新创建表与改变模式？

如果列的长度减少了，比如说在第三季度，我们只得到30列，它将如何表现？

pandas apache-spark hadoop talend

1个回答

0
投票

首先，在HDFS中，你不存储表，只存储文件。你在hive impala等文件上面创建表。

有些格式在读取时支持schema合并，例如镶木地板一般来说，你将能够用超级列集重新创建你的表。在Impala中，你也有类似的功能模式演变.

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.