Spark设备上没有剩余空间

问题描述 投票:0回答:1

我有一个EMR作业,读取大约1TB数据,过滤它并对其进行重新分区(重新分区后有一些连接),但我的作业在重新分区时失败,错误“设备上没有剩余空间”。我厌倦了改变“spark.local.dir”但它没用。我的工作仅在d2.4xlarge实例上完成,但在具有类似核心和内存的r3.4xlarge上失败。我找不到这个问题的根本原因。任何帮助,将不胜感激。

感谢您的时间。

apache-spark pyspark
1个回答
0
投票

我之前在Spark 2.2上遇到了同样的问题。我可以通过在SPARK_LOCAL_DIRS=/path/to/other/tmp中设置$SPARK_HOME/conf/spark-env.sh来更改目录

“spark.local.dir / tmp 用于Spark中“临时”空间的目录,包括存储在磁盘上的映射输出文件和RDD。这应该位于系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。注意:在Spark 1.0及更高版本中,这将由集群管理器设置的SPARK_LOCAL_DIRS(Standalone,Mesos)或LOCAL_DIRS(YARN)环境变量覆盖。“https://spark.apache.org/docs/latest/configuration.html

© www.soinside.com 2019 - 2024. All rights reserved.