如何使用Hive使用单个hdfs路径创建n个外部表

问题描述 投票:1回答:1

是否可以使用Hive创建n个指向单个hdfs路径的外部表。如果是,有哪些优点及其局限性。

hive hdfs create-table
1个回答
3
投票

可以在HDFS中的相同位置创建许多表(同时管理和外部)。

在相同数据之上创建具有完全相同模式的表根本没用,但是您可以创建具有不同列数的不同表,例如使用RegexSerDe创建具有不同解析列的表,因此您可以在这些表中使用不同的模式表。并且您可以在Hive中对这些表具有不同的权限。此外,还可以在其他一些表文件夹的子文件夹之上创建表,在这种情况下,它将包含一组数据。最好在单个表中使用相同的分区。

缺点是它很混乱,因为您可以使用多个表重写相同的数据,并且您可能会意外丢弃它,认为这些数据属于唯一的表,您可以删除数据,因为您不再需要该表。

这是几个测试:

使用INT列创建表:

create table T(id int);
OK
Time taken: 1.033 seconds

检查位置和其他属性:

hive> describe formatted T;
OK
# col_name              data_type               comment

id                      int

# Detailed Table Information
Database:               my
Owner:                  myuser
CreateTime:             Fri Jan 04 04:45:03 PST 2019
LastAccessTime:         UNKNOWN
Protect Mode:           None
Retention:              0
Location:               hdfs://myhdp/user/hive/warehouse/my.db/t
Table Type:             MANAGED_TABLE
Table Parameters:
        transient_lastDdlTime   1546605903

# Storage Information
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat:            org.apache.hadoop.mapred.TextInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed:             No
Num Buckets:            -1
Bucket Columns:         []
Sort Columns:           []
Storage Desc Params:
        serialization.format    1
Time taken: 0.134 seconds, Fetched: 26 row(s)
                                                                                                  sts)

在同一位置上创建第二个表,但使用STRING列:

hive> create table T2(id string) location 'hdfs://myhdp/user/hive/warehouse/my.db/t';
OK
Time taken: 0.029 seconds

插入数据:

hive> insert into table T values(1);
OK
Time taken: 33.266 seconds

检查数据:

hive> select * from T;
OK
1
Time taken: 3.314 seconds, Fetched: 1 row(s)

插入第二个表格:

hive> insert into table T2 values( 'A');
OK
Time taken: 23.959 seconds

检查数据:

hive> select * from T2;
OK
1
A
Time taken: 0.073 seconds, Fetched: 2 row(s)

从第一个表中选择:

hive> select * from T;
OK
1
NULL
Time taken: 0.079 seconds, Fetched: 2 row(s)

选择字符串为NULL,因为此表定义为具有INT列。

现在将STRING插入第一个表(INT列):

insert into table T values( 'A');
OK
Time taken: 84.336 seconds

惊喜,它没有​​失败!

什么插入?

hive> select * from T2;
OK
1
A
NULL
Time taken: 0.067 seconds, Fetched: 3 row(s)

插入了NULL,因为在之前的插入字符串中转换为int,这导致NULL

现在让我们尝试删除一个表并从另一个表中选择:

hive> drop table T;
OK
Time taken: 4.996 seconds
hive> select * from T2;
OK
Time taken: 6.978 seconds

返回0行,因为第一个表是MANAGED而drop表也删除了公共位置。

结束,

数据被删除,我们需要没有数据的T2表吗?

drop table T2;
OK

删除第二个表,你看,它只是元数据。该表也被管理,drop table也应该删除带有数据的位置,但它已经没有在HDFS中删除,只删除了元数据。

© www.soinside.com 2019 - 2024. All rights reserved.