为什么“sc.addFile”和“spark-submit --files”没有向所有工作人员分发本地文件？

Question

我有一个csv文件“test.csv”，我试图复制到群集上的所有节点。

我有一个4节点的apache-spark 1.5.2独立集群。有4个工人，其中一个节点也有主要/驱动程序以及工作人员。

如果我跑：

$SPARK_HOME/bin/pyspark --files=./test.csv或在REPL界面内执行sc.addFile('file://' + '/local/path/to/test.csv')

我看到火花日志如下：

16/05/05 15:26:08 INFO Utils: Copying /local/path/to/test.csv to /tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b/userFiles-a4cb1723-e118-4f0b-9f26-04be39e5e28d/test.csv
16/05/05 15:26:08 INFO SparkContext: Added file file:/local/path/to/test.csv at http://192.168.1.4:39578/files/test.csv with timestamp 1462461968158

在主/驱动程序节点上的单独窗口中，我可以使用ls轻松定位文件，即（ls -al /tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b/userFiles-a4cb1723-e118-4f0b-9f26-04be39e5e28d/test.csv）。

但是，如果我登录工作人员，/tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b/userFiles-a4cb1723-e118-4f0b-9f26-04be39e5e28d/test.csv上没有文件，甚至/tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b也没有文件夹

但是apache spark web界面显示了所有节点上正在运行的作业和分配的核心，控制台中也没有出现其他警告或错误。

Answer 1

正如Daniel评论的那样，每个工作者都以不同的方式管如果要访问添加的文件，则可以使用SparkFiles.get(file)。如果你想查看文件的目录，那么你可以打印SparkFiles.getDirectory的输出（现在SparkFiles.getRootDirectory）

为什么“sc.addFile”和“spark-submit --files”没有向所有工作人员分发本地文件？

问题描述投票：6回答：1

1个回答

最新问题

为什么“sc.addFile”和“spark-submit --files”没有向所有工作人员分发本地文件？

问题描述 投票：6回答：1

1个回答

最新问题

问题描述投票：6回答：1