如何将1tb的大数据紧密加载到synapse sql中

问题描述 投票:0回答:1

我有一个接近 1tb 的源数据,想要将其加载到 synapse sql 中。但是,完全加载需要时间,并且对于较大的数据集效率不高,如果我采用增量方法,那么在水印表中时间戳应该是什么在开始时?我应该在水印表中给出源数据开始日期吗?

我试图创建一种逻辑来增量加载一个月的数据,但逻辑无法给出日期范围

upload azure-data-factory azure-synapse incremental
1个回答
0
投票

1 TB 并不是需要很长时间的事情,但当然取决于您的成本目标以及您想要使用的规模(取决于源端和接收端的计算)。对于 1 TB 大小的数据集来说,满载并不存在效率低下的情况。

这并不是你所说的增量加载,增量加载用于在完全加载完成后定期更新。因此,在您的情况下,您希望将全部负载分为几个步骤。

为此,您可以分析数据的时间戳,假设数据从 2016 年到 2019 年。然后您可以将其分解为 4 年,并在 4 次不同的运行中进行加载。首先加载 2016 年的时间戳,然后加载 2017 年的时间戳,依此类推..

您需要提供更多信息,说明逻辑在日期范围内如何失败,您使用什么确切方法来加载数据集?

© www.soinside.com 2019 - 2024. All rights reserved.