43
投票

Spark应用程序由一个驱动程序和一个或多个执行程序组成。驱动程序是主程序（实例化SparkContext），它协调执行程序以运行Spark应用程序。执行程序运行驱动程序分配的任务。

YARN应用程序具有以下角色：yarn客户端，yarn应用程序主服务器和在节点管理器上运行的容器列表。

当Spark应用程序在YARN上运行时，它有自己的yarn client和yarn application master实现。

在这些背景下，主要区别在于驱动程序运行的位置。

纱线独立模式：您的驱动程序作为纱线应用程序主机的线程运行，纱线应用程序主机本身在群集中的一个节点管理器上运行。 Yarn客户端只从应用程序主机中提取状态。此模式与mapreduce作业相同，MR应用程序主机协调容器以运行map / reduce任务。
纱线客户端模式：您的驱动程序正在纱线客户端上运行，您可以在其中键入提交火花应用程序的命令（可能不是纱线群集中的机器）。在此模式下，尽管驱动程序在客户端计算机上运行，但任务仍在YARN群集的节点管理器中的执行程序上执行。

参考：http://spark.incubator.apache.org/docs/latest/cluster-overview.html

43
投票

所以在火花中你有两个不同的组件。有司机和工人。在纱线群集模式下，驱动程序在数据节点上远程运行，并且工作程序在不同的数据节点上运行。在纱线客户端模式下，驱动程序位于启动作业的计算机上，而工作程序位于数据节点上。在本地模式下，驱动程序和工作人员在启动作业的计算机上。

运行.collect（）时，来自工作节点的数据将被拉入驱动程序。它基本上是最后一点处理发生的地方。

对于我自己，我发现当我在家中使用vpn时，纱线群集模式会更好，但是当我在数据中心内运行代码时，纱线客户端模式会更好。

Yarn-client模式还意味着您为驱动程序少占用一个工作节点。

27
投票

运行的Spark应用程序

yarn-client mode:

驱动程序在启动了应用程序的客户端计算机或本地计算机上运行。
资源分配由YARN资源管理器根据数据节点上的数据位置完成，本地机器的驱动程序将控制spark集群（节点管理器）上的执行程序。

有关更多信息，请参阅此cloudera article。

独立模式和纱线部署模式之间的区别，

资源优化在独立模式下效率不高。
在独立模式下，驱动程序在集群的每个节点中启动执行程序，而不管数据位置如何。
standalone适用于用例，其中只有您的spark应用程序正在执行，并且集群不需要以有效的方式为其他作业分配资源。

11
投票

火花和纱线都是分布式框架，但它们的作用是不同的：

Yarn是一个资源管理框架，对于每个应用程序，它具有以下角色：

ApplicationMaster：单个应用程序的资源管理，包括从应用程序和监视器的Yarn请求/释放资源。

尝试：尝试只是一个正常的过程，它完成了应用程序整个工作的一部分。例如，mapreduce作业由多个映射器和缩减器组成，每个映射器和reducer都是一个尝试。

向纱线提交申请的常见流程是：

客户向纱线提交申请请求。在请求中，Yarn应该知道ApplicationMaster类;对于SparkApplication，它是org.apache.spark.deploy.yarn.ApplicationMaster，对于MapReduce作业，它是org.apache.hadoop.mapreduce.v2.app.MRAppMaster。
Yarn为ApplicationMaster进程分配一些资源，并在其中一个集群节点中启动ApplicationMaster进程;
ApplicationMaster启动后，ApplicationMaster将从Yarn为此应用程序请求资源并启动worker;

对于Spark，分布式计算框架，计算任务分为许多小任务，每个Executor将负责每个任务，Driver将收集所有Executor任务的结果并获得全局结果。 spark应用程序只有一个带有多个执行程序的驱动程序。

那么，当Spark使用Yarn作为集群中的资源管理工具时，问题就出现了：

在纱线群集模式中，Spark客户端将向纱线提交火花应用，Spark Driver和Spark Executor都在纱线的监督下。从纱线的角度来看，Spark Driver和Spark Executor没有区别，但是普通的java进程，即应用程序工作进程。因此，当客户端进程消失时，例如客户端进程终止或终止，纱线上的Spark应用程序仍在运行。
在纱线客户端模式下，只有Spark Executor位于纱线监督。 Yarn ApplicationMaster将仅为spark执行器请求资源。驱动程序在客户端进程中运行，与纱线无关，只是将应用程序提交给yarn的过程。因此，当客户端离开时，例如，客户端进程退出，驱动程序关闭，计算终止。

5
投票

使用yarn-client模式，您的spark应用程序在本地计算机上运行。使用纱线独立模式，您的火花应用程序将作为纱线ApplicationMaster提交给YARN的ResourceManager，并且您的应用程序正在运行ApplicationMaster的纱线节点中运行。在这两种情况下，纱线都是火花的集群经理。您的应用程序（SparkContext）将任务发送到yarn。

3
投票

首先，让我们弄清楚在独立模式下运行Spark和在集群管理器（Mesos或YARN）上运行Spark之间的区别。

在独立模式下运行Spark时，您有：

Spark主节点
一些Spark Slaves节点，已经与Spark master“注册”

所以：

主节点将执行Spark驱动程序向执行程序发送任务，并且还将执行任何资源协商，这是非常基本的。例如，默认情况下，每个作业都将使用所有现有资源。
从属节点将运行Spark执行程序，运行从驱动程序提交给它们的任务。

使用集群管理器时（我将为YARN描述这是最常见的情况），您有：

YARN资源管理器（不断运行），它接受对新应用程序和新资源（YARN容器）的请求
多个YARN节点管理器（不断运行），由工作池组成，资源管理器将在其中分配容器。
应用程序主服务器（在YARN应用程序的持续时间内运行），负责从资源管理器请求容器并将命令发送到分配的容器。

请注意，在这种情况下有两种模式：cluster-mode和client-mode。在客户端模式中，您提到的是：

Spark驱动程序将在执行命令的机器中运行。
Application Master将在集群中的已分配Container中运行。
Spark执行程序将在已分配的容器中运行。
Spark驱动程序将负责指示Application Master请求资源并向分配的容器发送命令，接收结果并提供结果。

那么，回到你的问题：

“本地推出”是什么意思？在哪里？在Spark集群上？

本地意味着在您执行命令的服务器中（可以是spark-submit或spark-shell）。这意味着您可以在群集的主节点中运行它，或者您也可以在群集外的服务器（例如您的笔记本电脑）中运行它，只要适当的配置到位，这样该服务器就可以与群集通信，反之亦然。

与纱线独立模式有什么区别？

如上所述，不同之处在于在独立模式下，根本没有集群管理器。本article中提供了针对每种模式具体分析和分类所有差异的详细信息。

什么是Spark中的纱线客户端模式？

问题描述投票：42回答：6

6个回答

yarn-client mode:

最新问题

什么是Spark中的纱线客户端模式？

问题描述 投票：42回答：6

6个回答

yarn-client mode:

最新问题

问题描述投票：42回答：6