通过天蓝色数据块从天蓝色数据湖gen1读取数据时应遵循的最佳做法

问题描述 投票:0回答:1

我是天蓝色数据砖的新手。我试图将数据从datalake读取到databricks中。我发现主要有两种方法

  1. 将datalake中存在的文件安装到dbfs中(优点是只需要进行一次身份验证)
  2. 使用服务主体和OAuth(每个请求都需要身份验证)

我很想知道当我们选择在dbfs中安装文件夹时是否存在一些显着的内存消耗。我了解到装入的数据是持久的。因此,我猜测这可能会导致一些内存消耗。我希望有人能解释一下在dbfs中挂载文件时后端发生了什么

azure azure-data-lake azure-databricks
1个回答
0
投票

永久数据问题:

据我基于documentation of dbfs的了解,从挂载点通过dbfs读取的数据未持久:

“写入安装点路径(/ mnt)的数据存储在DBFS根目录之外。即使DBFS根目录是可写的,我们还是建议您将数据存储在已安装的对象存储中,而不是DBDB根目录中。”

相反,您可以将数据直接写到DBFS(实际上就是一个存储帐户),并且该数据将在集群重新启动之间保持不变。例如,您可以将一些示例数据集直接存储在DBFS中。

Data Lake Gen 1的最佳做法

由于不应该对性能产生任何影响,因此我不知道总体上存在“最佳实践”。根据我的经验,最好记住这两种解决方案对于不知道身份验证方式或身份验证方式的新用户可能会造成混淆。

© www.soinside.com 2019 - 2024. All rights reserved.