安装文件系统不需要从 Azure Data Lake Storage Gen2 帐户读取

问题描述 投票:0回答:1

我在购买考试日期时遇到了 Microsoft 模拟考试的问题。以下是问题和答案:

enter image description here

解释也没有给出太多:

enter image description here

参考资料如下:

https://docs.databricks.com/en/connect/storage/azure-storage.html

https://docs.databricks.com/en/security/secrets/secret-scopes.html

https://docs.databricks.com/en/security/secrets/secrets.html

如果我只想从 ADLS Gen2 帐户读取数据,有谁明白为什么我需要使用服务原则挂载文件系统?我假设他们指的是 DBFS(Databrincwith 这个,所以不确定为什么我们需要这样做。而且 RDD API 不就是我们必须使用的普通 Spark API 吗?

azure azure-storage azure-databricks
1个回答
0
投票

RDD API 凭据是从 Hadoop 配置中读取的。这是分布到所有应用程序和工作节点的集群范围配置,因此如果您想保证凭证的安全,那么您不应该使用此方法。

问题的焦点是秘密范围。秘密瞄准镜是为此类事情而设计的,并提供以下好处:

  • 范围访问
  • 集中管理
  • 自动日志屏蔽以防止泄漏

因此,挂载文件系统支持数据访问(访问方法),并且使用服务主体是在工作区中执行此操作的最安全方法。

真正让我困惑的是答案

Configure the storage account key with spark.conf.set()
。是的,当然,由于我们不应该使用 Hadoop 配置,所以我们应该使用 Spark 配置 - 我们已经介绍过这一点,但是在使用服务主体客户端密钥时不需要存储帐户密钥。身份验证的方法是 OAuth,而不是帐户密钥。所以我认为这个答案即使不是完全错误,也是有误导性的。

总而言之,该问题的目的是测试您在 ADB 中保持凭证安全、使用秘密范围以及如何通过挂载文件系统来利用 API 的知识。

© www.soinside.com 2019 - 2024. All rights reserved.