如何在红移频谱中创建外部表格,文件位置每天都会改变?

问题描述 投票:0回答:1

我们计划使用AWS红移频谱从其他AWS账户的S3中获取数据。但Source告知,存储桶密钥每天都会更改,最新数据将在存储桶密钥位置以最新时间戳显示。任何人都可以建议创建这个外部表的最佳方法是什么?

amazon-redshift amazon-redshift-spectrum
1个回答
0
投票

Spectrum中的外部表可以配置为指向S3中的前缀(类似于普通文件系统中的文件夹),也可以使用清单文件来指定表应包含的文件的确切列表(它们甚至可以驻留在不同的s3水桶)。

因此,您必须每天创建表并将其指向正确的位置。如果所有文件都以相同的s3前缀结尾,则必须使用清单文件来指定当前文件。

一个与问题没有直接关系的提示:你还可以做的是每天创建一个名称中带有时间戳的表,并且每天创建一个指向最新表的视图。通过这种方式,您可以轻松查看历史数据,或者使用数据进行查询。机器学习 - 将输入固定到不可变的数据版本,以便您可以重复地获取训练数据 - 但这当然取决于您的要求。

© www.soinside.com 2019 - 2024. All rights reserved.