Databricks 集群 Spark 配置

Question

如何在集群的 Spark 配置中运行代码。我尝试了几种设置来让 Python 设置默认数据库。想法是用户在编写 SQL 查询时不必指定数据库。我尝试了几个在笔记本中工作的命令，但是，在集群的 Spark 配置中执行时似乎没有执行任何操作。

spark.catalog.setCurrentDatabase 数据库名称

上面的命令在笔记本中可以正常工作。

在集群的 Spark 配置中尝试了不同的选项，集群似乎运行命令时没有任何错误（检查日志），但是，要么它没有执行任何操作，要么一旦我运行笔记本，某些东西就会覆盖此命令。

Answer 1

在笔记本和集群配置中运行的东西是不同的。

通过运行

spark.catalog.setCurrentDatabase

，您可以调用

setCurrentDatabase

 类的实例方法

通过设置集群的 Spark 配置，您尝试使用 Spark 配置属性之一，但是没有名为

spark.catalog.setCurrentDatabase

的属性，而是使用

spark.sql.catalog.spark_catalog.defaultDatabase

（自 Spark 3.4.0 起可用）。