是否可以在S3中对Parquet文件进行索引和分区,或者此功能仅在卷的File Storage类型上可用?
我正在寻找一种方法,为研究人员通过EMR笔记本访问S3中的相同数据提供(a)通用R和Python脚本,以及(b)支持Spark的查询。但是,我们现在拥有的专有解决方案和查询语言可以在NFS存储上提供索引和分区-因此,我想保留此功能。我看到Delta Lake提供了此功能,但我想知道是否可以使用Arrow这样的简单工具来实现。
您可以使用Delta Lake对Parquet文件进行分区。默认情况下,它们也会被索引。
您可以这样操作
%sql
CREATE TABLE UsableTable_unpartitioned
USING DELTA
LOCATION 'Location of the Parquet File on S3' ;
CREATE TABLE UsableTable
USING DELTA
PARTITIONED BY (my_partitioned_column)
LOCATION 'MyS3Location'
select * from UsableTable_unpartitioned;
DROP TABLE UsableTable_unpartitioned;
验证分区和创建的所有必需信息:
%sql
describe detail UsableTable
您可以使用JDBC公开此表