将并行执行中的多个TB文件加载到AZURE cloud SQL数据库中

问题描述 投票:0回答:1

我有多个Terabyte文件,需要将它们加载到数据库中,该数据库位于云中高性能AZURE SQL服务器的顶部。

目前,我正尝试通过SSIS包加载这些文件,并且需要5个多小时才能完成5个文件的加载。

我相信HDInsight / Data Bricks在Azure中可以使用Ambari和其他UI进行大数据ETL处理和分析数据。但是是否可以使用相同的(HDInsight或DataBricks)将庞大的数据文件加载到SQL表/数据库中? (就像使用集群在并行执行模式下加载多个文件一样)

非常感谢任何建议/帮助

azure azure-sql-database hdinsight ambari azure-databricks
1个回答
0
投票

由于您提到了SSIS,所以我想知道您是否考虑过使用Azure数据工厂的选项(我个人认为这是SSIS在云上的下一个版本),复制活动应该可以解决问题,并且它确实支持并行执行。由于您正在考虑使用SQL Azure,因此我们需要考虑接收器端的拥塞问题,这是指所有TB级文件都试图同时写入SQL表的情况。

© www.soinside.com 2019 - 2024. All rights reserved.