DATABRICKS DBFS

问题描述 投票:0回答:2

我需要对Databricks DBFS有所了解。

简单来说,它是什么,它的目的是什么,它允许我做什么?

有关数据块的文档,对此表示同意。

“ DBFS中的文件将持久保存到Azure Blob存储中,因此即使终止群集,您也不会丢失数据。”

任何见解都会有所帮助,从架构和使用角度来看,找不到能够详细介绍该文档的文档

azure file system databricks
2个回答
2
投票

我对DBFS有经验,这是一个很好的存储设备,可以保存您可以使用DBFS CLI从本地计算机上载的数据! CLI setup有点棘手,但是当您进行管理时,您可以在此环境中轻松移动整个文件夹(记住使用-overwrite!)

  1. 创建文件夹
  2. 上传文件
  3. 修改,删除文件和文件夹

使用Scala,您可以使用如下代码轻松提取存储在该存储中的数据:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

或读入整个文件夹以处理所有csv可用文件:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

我认为它易于使用和学习,希望您发现此信息对您有所帮助!


0
投票

Databricks文件系统(DBFS)是安装在Databricks工作区中的分布式文件系统,可在Databricks群集上使用。DBFS是可伸缩对象存储之上的抽象,具有以下优点:1)允许您挂载存储对象,以便可以无缝访问数据而无需凭据。2)允许您使用目录和文件语义而不是存储URL与对象存储进行交互。将文件持久保存到对象存储(Blob),因此在终止集群后不会丢失数据。

下面的链接将帮助您进一步了解Databricks utils命令:databricks-file-system link

© www.soinside.com 2019 - 2024. All rights reserved.