我有一个spark scala应用程序(spark 2.4)。我将存在于edge node上的文件作为我的驱动程序(主)程序的参数传递,我使用scala.io.Source
读取了此文件。现在,当我执行spark-submit并提及--deploy-mode client
时,应用程序运行正常,它可以读取文件。但是当我使用deploy-mode cluster
时。应用程序失败,提示找不到文件。有没有一种方法可以在群集模式下从边缘节点读取文件。
谢谢。
在cluster
模式下,可以使用--files
的spark-submit
选项。
另一种选择是将文件放置在分布式文件系统中,例如hdfs
或dbfs
。