数据仓库：基于RDBMs和基于S3 / ADLS的数据

问题描述投票：0回答：1

我开始在电信领域开发数据仓库。我熟悉Kimball的方法（将DW建模为Star Schema）。我希望有许多事实表，最大的事实表可能多达数百亿行。我无法想象几年后将在我的数据仓库中再次运行的所有类型的查询。

[现代数据库方法说，应将计算能力与存储（例如，Azure Synapse Analytics，Redshift Spectrum，Presto等）分离。反过来，诸如Greenplum或Redshift之类的数据库将始终使用运行PostgreSQL的服务器来存储数据。

与“解耦”相比，更可能基于RDBM的数据仓库的原因是什么？] >>

虽然我完全喜欢解耦方法，但我的困惑是基于这样的事实，我绝对不了解在S3 / ADLS与RDBM中分析数据对性能的影响：

如果您选择Redshift / Greenplum而没有能力暂停集群（并使用无服务器方法），则可以对RDBMs系统进行性能优化，以进行查找，聚合和联接。
如果您选择基于S3 / ADLS的MPP数据仓库，则已经在云存储上运行了查询。这将使您能够非常迅速地扩展/暂停集群，甚至在云供应商允许的情况下甚至可以使用无服务器方法。但是我找不到有关Redshift / Azure Synapse Analytics如何索引数据的良好文档。他们使用镶木地板和索引吗？他们是否使用自定义列存储格式？他们是否难以对选择性很高的查询进行全面扫描？

P.S。如果这类问题尚未成为一般理论并且基于观点，那么我是否应该基于PoC做出所有决策？我对这个选项感到困惑，因为DW PoC可能要花很多时间。也许您知道任何性能基准？

我开始在电信领域开发数据仓库。我熟悉Kimball的方法（将DW建模为Star Schema）。我希望有许多事实表，最大的可能多达数十个...

architecture

amazon-redshift

data-warehouse

dimensional-modeling

amazon-redshift-spectrum

1个回答

0
投票

但是我找不到[的良好文档。。。] Azure Synapse Analytics了解它们如何为数据建立索引。