在 Azure Data Lake Gen2 中启用分层命名空间所需的 ADF 管道更改

问题描述 投票:0回答:1

在 Azure Data Lake Gen2 中启用分层命名空间时,ADF 管道需要进行哪些更改。 升级完成后,ADF 和 Synapse 有望得到哪些改进。 数据湖用于存储原始数据

升级到具有 Azure Data Lake Gen2 功能的存储帐户,但需要了解对 ADF 中现有管道和数据流的影响
Enabling Hierarchical Namespaces

azure-data-factory azure-data-lake azure-data-lake-gen2
1个回答
0
投票

HNS 的一个改进是当你在 ADLS 中进行并行复制时,例如当执行同时发生时,有时没有 HNS 这些会导致我的经验错误。如果没有 HNS,就必须使用静态文件夹,因为并行副本只能复制到不同的文件夹中,而不是同时复制到同一个文件夹中(想象 50 个并行运行的复制活动)。

从这个角度来看,使用 HNS 的 Gen2 是比使用 blob 存储更好的选择。

ACL 也有差异,这可能对 ADF/Synapse 有益。

来自文档(原子目录操作):

“如果没有真正的目录,应用程序必须处理潜在的数百万个单独的 blob 才能完成目录级任务。相比之下,分层命名空间通过更新单个条目(父目录)来处理这些任务。

这种显着的优化对于许多大数据分析框架来说尤为重要。 Hive、Spark 等工具通常将输出写入临时位置,然后在作业结束时重命名该位置。如果没有分层命名空间,此重命名通常比分析过程本身花费的时间更长。较低的作业延迟等于较低的分析工作负载总拥有成本 (TCO)。”

话虽这么说,当然并不是所有的工作负载都会从 HNS 中受益,但是用于分析处理的工作负载尤其会从 HNS 中受益匪浅。你想到的工作量/处理是什么?

© www.soinside.com 2019 - 2024. All rights reserved.