我完全理解每个人。但哪些是主要差异?
两者都保留磁盘上的数据吗?
如果我将非分布式系统安装到数据库DBFS,该怎么办?
我认为在HDFS中数据持久存储在本地服务器上,但在DBFS中,它们使用S3作为存储,基本上将存储从计算中取出。 WASB(Windows Azure存储Blob)执行相同的操作,并将存储带到blob。请阅读this。
这就是它所说的“Databricks文件系统(DBFS)是安装在Databricks集群上的分布式文件系统.DBFS中的文件持久存储到S3,因此即使终止集群也不会丢失数据。”