Databricks 和 Informatica Delta Lake 连接器 Spark 配置

问题描述 投票:0回答:1

我正在使用 Informatica Data Integrator 并尝试建立与 Databricks 集群的连接。到目前为止,一切似乎都工作正常,但有一个问题是,在 Spark 配置下,我们必须为 ADLS gen 2 存储帐户放置 SAS 密钥。

原因是,当 Informatica 尝试写入 Databricks 时,它首先必须将该数据写入 ADLS gen 2 中的文件夹中,然后 Databricks 本质上会获取该文件并将其写入 Delta Lake 表。

现在的一个问题是,我们放置 Spark 配置的字段包含完整的 SAS 值(url 加令牌和密码)。这并不是一件好事,除非我们只让 1 人担任管理员。

有人使用过 Informatica 和 Databricks 吗?是否可以将 Spark 配置作为文件,然后让 Informatica 连接器读取该文件?或者是否可以将该 SAS 密钥添加到 Spark 集群(我们使用的交互式集群)并让该集群从该文件读取信息?

感谢您对此提供的任何帮助。

databricks azure-databricks informatica delta-lake informatica-cloud
1个回答
0
投票

您确实不需要将 SAS 键值放入 Spark 配置中,而是需要将该值存储在 Azure KeyVault 烘焙的秘密范围(在 Azure 上)或 Databricks 秘密范围(在其他云中),然后使用语法

{{secrets/<secret-scope-name>/<secret-key>}}
(请参阅 doc)从 Spark 配置引用该值 - 在这种情况下,SAS 键值将在集群启动时读取,并且无法提供给有权访问集群 UI。

© www.soinside.com 2019 - 2024. All rights reserved.