我需要对Databricks DBFS有所了解。
简单来说,它是什么,它的目的是什么,它允许我做什么?
有关数据块的文档,对此表示同意。
“ DBFS中的文件将持久保存到Azure Blob存储中,因此即使终止群集,您也不会丢失数据。”
任何见解都会有所帮助,从架构和使用角度来看,找不到能够详细介绍该文档的文档
我对DBFS有经验,这是一个很好的存储设备,可以保存您可以使用DBFS CLI从本地计算机上载的数据! CLI setup有点棘手,但是当您进行管理时,您可以在此环境中轻松移动整个文件夹(记住使用-overwrite!)
使用Scala,您可以使用如下代码轻松提取存储在该存储中的数据:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)
或读入整个文件夹以处理所有csv可用文件:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)
我认为它易于使用和学习,希望您发现此信息对您有所帮助!
Databricks文件系统(DBFS)是安装在Databricks工作区中的分布式文件系统,可在Databricks群集上使用。DBFS是可伸缩对象存储之上的抽象,具有以下优点:1)允许您挂载存储对象,以便可以无缝访问数据而无需凭据。2)允许您使用目录和文件语义而不是存储URL与对象存储进行交互。将文件持久保存到对象存储(Blob),因此在终止集群后不会丢失数据。
下面的链接将帮助您进一步了解Databricks utils命令:databricks-file-system link