Hive:将hdfs中的gziped CSV作为只读加载到表中

问题描述 投票:0回答:1

我有一个hdfs文件夹,里面有很多csv.gz,都有相同的架构。我的客户需要通过Hive阅读这些表的内容。

我试图申请https://cwiki.apache.org/confluence/display/Hive/CompressedStorage。但是它会移动文件,而我需要它保留在其初始目录中。

另一个问题是我应该逐个加载每个文件,我宁愿从目录创建一个表而不是单独管理文件。

我根本不掌握Hive。他有可能吗?

hive computer-vision gzip
1个回答
0
投票

是的,这可以通过Hive实现。您可以创建外部表并引用包含HDFS文件的现有gzip位置。应在表创建期间指定数据的模式。

hive> CREATE EXTERNAL TABLE my_data 
      (
        column_1 int,
        column_2 string
      )
      LOCATION 'hdfs:///my_data_folder_with_gzip_files';
© www.soinside.com 2019 - 2024. All rights reserved.