如何将1tb的大数据紧密加载到synapse sql中

问题描述投票：0回答：1

我有一个接近 1tb 的源数据，想要将其加载到 synapse sql 中。但是，完全加载需要时间，并且对于较大的数据集效率不高，如果我采用增量方法，那么在水印表中时间戳应该是什么在开始时？我应该在水印表中给出源数据开始日期吗？

我试图创建一种逻辑来增量加载一个月的数据，但逻辑无法给出日期范围

upload

azure-data-factory

azure-synapse

incremental

1个回答

0
投票

1 TB 并不是需要很长时间的事情，但当然取决于您的成本目标以及您想要使用的规模（取决于源端和接收端的计算）。对于 1 TB 大小的数据集来说，满载并不存在效率低下的情况。

这并不是你所说的增量加载，增量加载用于在完全加载完成后定期更新。因此，在您的情况下，您希望将全部负载分为几个步骤。

为此，您可以分析数据的时间戳，假设数据从 2016 年到 2019 年。然后您可以将其分解为 4 年，并在 4 次不同的运行中进行加载。首先加载 2016 年的时间戳，然后加载 2017 年的时间戳，依此类推..

您需要提供更多信息，说明逻辑在日期范围内如何失败，您使用什么确切方法来加载数据集？