我在HDFS中有一个目录,其中固定结构和列名称的.csv
文件将在每天结束时转储,如下所示:我有一个配置单元表,该表应该在每天的开头附加新数据,并带有前一天.csv
文件的.csv
中的数据。我该如何做到这一点。
我可以建议使用CRON Jobs。您创建一个用于更新表的脚本,并配置一个CRON作业以在一天的特定时间(对于您的情况是一天的开始)执行该脚本,然后表将自动更新。
在HDFS中该目录的顶部构建Hive表。将新文件转储到表位置后,从该表中进行选择将选择新文件。我建议更改转储文件以写入日期子文件夹并按日期创建分区表的过程。此后您需要做的就是在选择表之前运行recover partitions command。