PySpark 获取检查点目录(版本< 3.1.0)

问题描述 投票:0回答:2

我们可以使用以下代码在PySpark中设置检查点目录路径:

spark.sparkContext.setCheckpointDir('/checkpoints')

由于

SparkContext.getCheckpointDir()
仅在PySpark 3.1.0版本中引入,如何使用旧版本PySpark(如v2.4.3)获取检查点目录路径?

apache-spark pyspark apache-zeppelin
2个回答
0
投票

SparkContext.getCheckpointDir()
仅在 PySpark 版本 3.1.0 中实现,但幸运的是它已经在
v2.4.3
的底层 Scala 代码库中实现。你可以看到here.

您可以使用

_jsc
属性访问底层sparksession(JavaSparkContext)。以下在版本
2.4.5
的 pyspark REPL 中工作:

>>> spark.sparkContext.setCheckpointDir('/checkpoints')
>>> sc._jsc.sc().getCheckpointDir().get()
'file:/checkpoints/1829fbb4-0b7b-44c5-b275-50276d063565'

0
投票

对于旧版本,您可以从 conf 中获取该属性:

checkpoint_dir = sc.getConf().get("spark.checkpoint.dir")
© www.soinside.com 2019 - 2024. All rights reserved.