我在AWS集群上运行了一些pyspark程序。我正在通过Spark UI监视作业(请参见附件)。但是,我注意到,与scala或Java spark程序不同,后者显示每个Stage对应于哪一行代码,在pyspark代码中找不到哪个Stage对应于哪一行代码。
有没有办法确定哪个阶段对应于pyspark代码的哪一行?
谢谢!
有没有办法确定哪个阶段对应于pyspark代码的哪一行?
是。 Spark UI在您的Python代码中提供了从PySpark操作调用的Scala方法。装备了PySpark codebase,您可以轻松识别正在调用的PySpark方法。在您的示例中,cache
是不言自明的,对javaToPython
的快速搜索显示它是由PySpark DataFrame.rdd
方法调用的。