我有多个要并行执行的作业,它们使用动态分区将每日数据附加到同一路径中。
我面临的问题是在spark执行作业期间创建的临时路径。多个作业最终共享相同的临时文件夹并导致冲突,这可能导致一个作业删除临时文件,而另一个作业失败,并显示错误,指出预期的临时文件不存在。
我们可以改变个人工作的临时路径,还是有任何其他方法可以避免问题
要更改临时位置,您可以执行以下操作:
/opt/spark/bin/spark-shell --conf "spark.local.dir=/local/spark-temp"
spark.local.dir更改读取和写入所有临时文件的位置,我建议在运行此参数的第一个会话之前通过命令行构建和打开此位置的位置。