在 Azure Data Lake Gen2 中启用分层命名空间所需的 ADF 管道更改

问题描述投票：0回答：1

在 Azure Data Lake Gen2 中启用分层命名空间时，ADF 管道需要进行哪些更改。升级完成后，ADF 和 Synapse 有望得到哪些改进。数据湖用于存储原始数据

升级到具有 Azure Data Lake Gen2 功能的存储帐户，但需要了解对 ADF 中现有管道和数据流的影响

azure-data-factory

azure-data-lake

azure-data-lake-gen2

1个回答

0
投票

HNS 的一个改进是当你在 ADLS 中进行并行复制时，例如当执行同时发生时，有时没有 HNS 这些会导致我的经验错误。如果没有 HNS，就必须使用静态文件夹，因为并行副本只能复制到不同的文件夹中，而不是同时复制到同一个文件夹中（想象 50 个并行运行的复制活动）。

从这个角度来看，使用 HNS 的 Gen2 是比使用 blob 存储更好的选择。

ACL 也有差异，这可能对 ADF/Synapse 有益。

来自文档（原子目录操作）：

“如果没有真正的目录，应用程序必须处理潜在的数百万个单独的 blob 才能完成目录级任务。相比之下，分层命名空间通过更新单个条目（父目录）来处理这些任务。

这种显着的优化对于许多大数据分析框架来说尤为重要。 Hive、Spark 等工具通常将输出写入临时位置，然后在作业结束时重命名该位置。如果没有分层命名空间，此重命名通常比分析过程本身花费的时间更长。较低的作业延迟等于较低的分析工作负载总拥有成本 (TCO)。”

话虽这么说，当然并不是所有的工作负载都会从 HNS 中受益，但是用于分析处理的工作负载尤其会从 HNS 中受益匪浅。你想到的工作量/处理是什么？