从 SAP HANA 导入 Azure 数据工厂 - 性能问题

问题描述 投票:0回答:1

我们正在通过 adf SAP HANA 连接器导入 SAP HANA 对象并写入 ADLS gen2。吞吐量是< 2mbit/s. The issue is (our findings), that adf requests many small packages. We tested and ruled out that it's an infrastructure error.

adf 端唯一需要摆弄的选项是“分区选项”和“数据包大小 (KB)”。我们对两者都进行了测试,它们对导入相关大视图的速度没有任何影响。

screen_1:adf复制数据源设置

screen_2:adf 复制文件详细信息

有没有人有类似的经历和一些明智的话可以在这里分享?

azure-data-factory hana
1个回答
0
投票

也许你可以尝试增加并行度。根据医生,

  • 从支持分区选项的数据存储复制数据时(包括 Azure SQL 数据库、Azure SQL 托管实例、Azure Synapse Analytics、Oracle、Amazon RDS for Oracle、Netezza、SAP HANA、SAP Open Hub、SAP Table、SQL Server、Amazon适用于 SQL Server 和 Teradata 的 RDS),默认并行副本为 4.

尝试增加 SHIR 上的节点数,增加并行度或大小。 (放大或缩小)

如果您从启用分区选项的数据存储(如 SAP HANA)复制数据,请考虑逐步调整并行副本,注意太多的并行副本甚至可能会损害性能。

https://learn.microsoft.com/en-us/azure/data-factory/copy-activity-performance-troubleshooting#troubleshoot-copy-activity-on-self-hosted-ir

你看过这个文档吗?

如果文档中的建议不能解决您的问题,并且您已经尝试了很多方法。想想SAP HANA是不是这里的瓶颈。另请注意,复制速度最终增加并达到峰值水平需要一些时间。

为了帮助您,您应该尝试文档中的所有这些步骤,然后列出到目前为止对您不起作用的步骤。


Aaand..最重要的是:

这里有更多关于如何扩展或扩展自托管 IR 的详细信息:

如果自托管 IR 节点上的 CPU 和可用内存未得到充分利用,但并发作业的执行已达到限制,则应通过增加可在节点上运行的并发作业数来进行扩展。有关说明,请参见此处。 另一方面,如果自托管 IR 节点上的 CPU 较高或可用内存较低,您可以添加一个新节点以帮助跨多个节点扩展负载。有关说明,请参见此处。 请注意,在以下场景中,单副本活动执行可以利用多个自托管 IR 节点:

根据文件的数量和大小,从基于文件的存储中复制数据。 从支持分区选项的数据存储(包括 Azure SQL 数据库、Azure SQL 托管实例、Azure Synapse Analytics、Oracle、Netezza、SAP HANA、SAP Open Hub、SAP Table、SQL Server 和 Teradata)复制数据,具体取决于数量数据分区。

© www.soinside.com 2019 - 2024. All rights reserved.