S3中对木地板的索引和分区

Question

是否可以在S3中对Parquet文件进行索引和分区，或者此功能仅在卷的File Storage类型上可用？

我正在寻找一种方法，为研究人员通过EMR笔记本访问S3中的相同数据提供（a）通用R和Python脚本，以及（b）支持Spark的查询。但是，我们现在拥有的专有解决方案和查询语言可以在NFS存储上提供索引和分区-因此，我想保留此功能。我看到Delta Lake提供了此功能，但我想知道是否可以使用Arrow这样的简单工具来实现。

Answer 1

您可以使用Delta Lake对Parquet文件进行分区。默认情况下，它们也会被索引。

您可以这样操作

%sql

CREATE TABLE UsableTable_unpartitioned
USING DELTA
LOCATION 'Location of the Parquet File on S3' ;

CREATE TABLE UsableTable
USING DELTA
PARTITIONED BY (my_partitioned_column)
LOCATION 'MyS3Location'
select * from UsableTable_unpartitioned;

DROP TABLE UsableTable_unpartitioned;

验证分区和创建的所有必需信息：

%sql
describe detail UsableTable

您可以使用JDBC公开此表

S3中对木地板的索引和分区

问题描述投票：1回答：1

1个回答

最新问题

S3中对木地板的索引和分区

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1