我开始在电信领域开发数据仓库。我熟悉Kimball的方法(将DW建模为Star Schema)。我希望有许多事实表,最大的事实表可能多达数百亿行。我无法想象几年后将在我的数据仓库中再次运行的所有类型的查询。
[现代数据库方法说,应将计算能力与存储(例如,Azure Synapse Analytics,Redshift Spectrum,Presto等)分离。反过来,诸如Greenplum或Redshift之类的数据库将始终使用运行PostgreSQL的服务器来存储数据。
与“解耦”相比,更可能基于RDBM的数据仓库的原因是什么?] >> 虽然我完全喜欢解耦方法,但我的困惑是基于这样的事实,我绝对不了解在S3 / ADLS与RDBM中分析数据对性能的影响:
P.S。如果这类问题尚未成为一般理论并且基于观点,那么我是否应该基于PoC做出所有决策?我对这个选项感到困惑,因为DW PoC可能要花很多时间。也许您知道任何性能基准?
我开始在电信领域开发数据仓库。我熟悉Kimball的方法(将DW建模为Star Schema)。我希望有许多事实表,最大的可能多达数十个...
但是我找不到[的良好文档。 。 。] Azure Synapse Analytics了解它们如何为数据建立索引。