如何在集群的 Spark 配置中运行代码。我尝试了几种设置来让 Python 设置默认数据库。想法是用户在编写 SQL 查询时不必指定数据库。我尝试了几个在笔记本中工作的命令,但是,在集群的 Spark 配置中执行时似乎没有执行任何操作。
spark.catalog.setCurrentDatabase 数据库名称
上面的命令在笔记本中可以正常工作。
在集群的 Spark 配置中尝试了不同的选项,集群似乎运行命令时没有任何错误(检查日志),但是,要么它没有执行任何操作,要么一旦我运行笔记本,某些东西就会覆盖此命令。
在笔记本和集群配置中运行的东西是不同的。
通过运行
spark.catalog.setCurrentDatabase
,您可以调用 setCurrentDatabase
类的实例方法
Catalog
。
通过设置集群的 Spark 配置,您尝试使用 Spark 配置属性之一,但是没有名为
spark.catalog.setCurrentDatabase
的属性,而是使用 spark.sql.catalog.spark_catalog.defaultDatabase
(自 Spark 3.4.0 起可用)。