S3中对木地板的索引和分区

问题描述 投票:1回答:1

是否可以在S3中对Parquet文件进行索引和分区,或者此功能仅在卷的File Storage类型上可用?

我正在寻找一种方法,为研究人员通过EMR笔记本访问S3中的相同数据提供(a)通用R和Python脚本,以及(b)支持Spark的查询。但是,我们现在拥有的专有解决方案和查询语言可以在NFS存储上提供索引和分区-因此,我想保留此功能。我看到Delta Lake提供了此功能,但我想知道是否可以使用Arrow这样的简单工具来实现。

amazon-s3 indexing amazon-emr parquet delta-lake
1个回答
0
投票

您可以使用Delta Lake对Parquet文件进行分区。默认情况下,它们也会被索引。

您可以这样操作

%sql

CREATE TABLE UsableTable_unpartitioned
USING DELTA
LOCATION 'Location of the Parquet File on S3' ;

CREATE TABLE UsableTable
USING DELTA
PARTITIONED BY (my_partitioned_column)
LOCATION 'MyS3Location'
select * from UsableTable_unpartitioned;

DROP TABLE UsableTable_unpartitioned;

验证分区和创建的所有必需信息:

%sql
describe detail UsableTable

您可以使用JDBC公开此表

© www.soinside.com 2019 - 2024. All rights reserved.