Databricks - 如何避免 Delta 表中的重复记录

问题描述 投票:0回答:1

我们的数据项目中有一个用例,其中通过实时流媒体来自源系统的源可能会检测到某些问题,并再次重新发送相同的交易,并带有指示交易已更正的标志。

问题是 Databricks 是否提供了覆盖早期事务的选项,以便我不会有相同事务的重复项?有人遇到过这种情况吗?您尝试过什么方法?我遇到过 Databricks 社区博客,其中讨论了使用“合并”语句。这是唯一的选择还是您实施了其他措施?

databricks azure-databricks delta-live-tables
1个回答
0
投票

是的,最好的解决方案肯定是使用条件良好的合并语句。 merge 语句的美妙之处在于,您可以决定当有匹配项和没有匹配项时会发生什么。基本上在您的场景中,如果您有匹配项,您将忽略该记录 请检查此文档

我不会建议其他选择,因为合并是正确的选择。

© www.soinside.com 2019 - 2024. All rights reserved.