我能够创建一个UDF函数并使用spark.UDF方法注册到spark。但是,这仅适用于每个会话。如何在群集启动时自动注册python UDF功能?所有用户都应该可以使用这些功能。示例用例是将时间从UTC转换为本地时区。
这是不可能的;这与Hive中的UDF不同。
如果使用spark-submit,将UDF编码为您提交的程序包/程序的一部分,或者在Spark App中包含的jar中编码。
然而,
spark.udf.register.udf("...
也需要完成。这适用于Databrick笔记本等。需要根据Spark Context / Session重新注册UDF。
实际上,您可以创建一个永久性功能,但不能从需要从JAR文件创建它的笔记本中创建
https://docs.databricks.com/spark/latest/spark-sql/language-manual/create-function.html
CREATE [TEMPORARY] FUNCTION [db_name。] function_name AS class_name [USING resource,...]
Resources ::(其| file | archive)file_add