[我有一种情况,第三方将数据存储在每日表中,如果记录数超过200万,则会创建一个后续表,依此类推,命名为[date] _x。
现在,我们有报告要求,需要使用此数据。过去已经执行了手动的UNION SQL和其他ETL操作,我正在尝试将其自动化。
[我的第一感觉是将所有内容都放入数据湖并在AWS上进行map-reduce。但是,在查看Tableau时,我希望利用其某些自动化来加速解决方案。现在,我不确定这是否是最佳解决方案。
请提出建议?
假设您不会替换正在生成“每日表格”的软件,让我们设计一个替代方法。
我假设这些表就像是数据仓库“事实”表。也就是说,有大量面向时间的数据集。正确? (请为其中之一提供SHOW CREATE TABLE
。)
您的报告需要以多种不同的方式来摘要汇总数据吗?
首先,总结每个日表。然后从汇总表构建报告。这涉及设计和构建一些“摘要表”。首先将每个每日事实表汇总到其中。之后,只需要获取每个新的Fact表(每晚?)并将其汇总到摘要表中即可。