Data Lake不变性规则的例外

问题描述 投票:0回答:1

Data Lake should be immutable

重要的是,放入湖中的所有数据都必须有清晰的出处的时间和地点。每个数据项都应该有一个清晰的跟踪它来自哪个系统以及何时生成数据。的因此,数据湖包含历史记录。这可能来自将Domain Events馈入湖中,与Event Sourced自然契合系统。但是它也可能来自定期执行转储的系统进入湖泊的当前状态-这种方法在源系统没有任何临时功能,但您需要一个其数据的时间分析。这样的结果是数据放置进入湖泊是一成不变的,一旦陈述,观察就不可能删除(尽管以后可能会被驳回),您也应该期待矛盾观察。

规则方面有什么看法,可以认为在Data Lake中覆盖数据是一种好习惯吗?我想没有,但是有些队友对此有不同的理解。

我认为在累积算法的情况下需要数据来源和可追溯性,以便能够再现最终状态。如果最终状态不取决于先前的结果怎么办?如果他说只有累积算法才需要Data Lake中的Data Lake不变性(事件源),对吗?

例如,您对表A和B进行了每日基本摄取,然后计算表C。如果用户仅对C的最新结果感兴趣,是否有任何理由保留历史记录(事件源基于日期分区)的A,B和C?

[另一个关注点可能是符合ACID标准-您的文件可能已损坏或部分被写入。但是,假设我们正在讨论一种情况,即可以轻松地从源系统还原A和B的最新状态。

数据湖应该是不变的:重要的是,放入湖中的所有数据都应在时间和地点上有明确的出处。每个数据项都应该清楚地知道它来自哪个系统...

architecture bigdata etl event-sourcing data-lake
1个回答
0
投票

规则有什么误解,可以认为在Data Lake中覆盖数据是一种好习惯?

© www.soinside.com 2019 - 2024. All rights reserved.