数据仓库:基于RDBMs和基于S3 / ADLS的数据

问题描述 投票:0回答:1

我开始在电信领域开发数据仓库。我熟悉Kimball的方法(将DW建模为Star Schema)。我希望有许多事实表,最大的事实表可能多达数百亿行。我无法想象几年后将在我的数据仓库中再次运行的所有类型的查询。

[现代数据库方法说,应将计算能力与存储(例如,Azure Synapse Analytics,Redshift Spectrum,Presto等)分离。反过来,诸如Greenplum或Redshift之类的数据库将始终使用运行PostgreSQL的服务器来存储数据。

与“解耦”相比,更可能基于RDBM的数据仓库的原因是什么?] >>

虽然我完全喜欢解耦方法,但我的困惑是基于这样的事实,我绝对不了解在S3 / ADLS与RDBM中分析数据对性能的影响:

  • 如果您选择Redshift / Greenplum而没有能力暂停集群(并使用无服务器方法),则可以对RDBMs系统进行性能优化,以进行查找,聚合和联接。
  • 如果您选择基于S3 / ADLS的MPP数据仓库,则已经在云存储上运行了查询。这将使您能够非常迅速地扩展/暂停集群,甚至在云供应商允许的情况下甚至可以使用无服务器方法。但是我找不到有关Redshift / Azure Synapse Analytics如何索引数据的良好文档。他们使用镶木地板和索引吗?他们是否使用自定义列存储格式?他们是否难以对选择性很高的查询进行全面扫描?
  • P.S。如果这类问题尚未成为一般理论并且基于观点,那么我是否应该基于PoC做出所有决策?我对这个选项感到困惑,因为DW PoC可能要花很多时间。也许您知道任何性能基准?

我开始在电信领域开发数据仓库。我熟悉Kimball的方法(将DW建模为Star Schema)。我希望有许多事实表,最大的可能多达数十个...

architecture amazon-redshift data-warehouse dimensional-modeling amazon-redshift-spectrum
1个回答
0
投票

但是我找不到[的良好文档。 。 。] Azure Synapse Analytics了解它们如何为数据建立索引。

© www.soinside.com 2019 - 2024. All rights reserved.