本地:为“spark.yarn.jars”路径/ URI方案

问题描述 投票:0回答:1

我是新来的火花,并试图了解我的项目中的代码,并进行这项工作。在创建火花会议,我在代码中的一个条目看到的配置为 - 的.config( “spark.yarn.jars”, “地方:/ Cloudera公司的/ opt / XX / xxjars / *”)。

我无法理解的URI方案提到的“本地:/”。这是什么意思,有人可以请帮助?

我做了一些谷歌找到一个page提它作为方案,但找不到任何细节,它是指什么?

apache-spark filesystems hadoop2
1个回答
0
投票

据我所知,“本地://路径/到/文件”是指该文件路径预计将在每个工作节点的本地文件系统,而不是在HDFS例如(HDFS:///路径/要/文件)。

因此,在前者的情况下该文件必须驻留在每个节点的单独文件系统,在后一种情况下,它是不够的,如果它是介于HDFS和发射了火花上下文时将下载到的节点。

该行为在Spark Documentation解释说:

星火使用以下URL方案允许传播罐子不同的策略:

  • 文件: - 绝对路径和文件:/ URI是由驱动程序的HTTP文件服务器提供服务,每一个执行者是直接从司机HTTP服务器的文件。
  • HDFS:,HTTP:,HTTPS:,FTP: - 这些下拉从URI文件和JAR预期
  • 本地: - 一个URI开始与地方:预计/存在,因为每个工作节点上的本地文件。这意味着,没有网络IO将招致,并非常适用于那些通过NFS,GlusterFS等推到每个工人,或共享大型文件/ JAR文件

对于大文件,最好是使用本地模式或让他们在HDFS,但有节点的复制因子=号码,以便该文件的HDFS复制定位确实是总是你的容器上运行相同的节点。

© www.soinside.com 2019 - 2024. All rights reserved.