yarn 相关问题

YARN(又一个资源谈判者)是第二代Apache Hadoop基础架构的关键组件。不要将它用于JavaScript / Node.js Yarn包管理器(改为使用[yarnpkg])!最初由Apache描述为重新设计的资源管理器,YARN现在被描述为用于大数据应用的大规模分布式操作系统,包括下一代MapReduce(MR2)。

在YARN中,容器尺寸如何确定?

在YARN应用程序中,ApplicationMaster如何决定容器的大小?我知道有控制最小内存分配,vcores比率等的参数但是如何...

回答 1 投票 2

org / apache / spark / network / util / ByteUnit:不支持的major.minor版本52.0

我想在纱线上运行Spark。我正在运行Spark 1.6.0,这对Yarn(hadoop 2.7.1)没问题。然后,我用我使用的相同纱线升级到Spark 2.2.1,我的应用程序都失败了......

回答 3 投票 2

除非PutHDFS在Apache的错误

尝试使用以下配置在Apache NiFi1.2.1上使用PutHDFS处理器; hadoop配置资源:/usr/local/hadoop-2.7.0/etc/hadoop/core-site.xml,/usr/local/hadoop-2.7.0/etc/hadoop / ...

回答 1 投票 0

SparkLauncher使用用户作为配置单元的yarn-client运行spark-submit

尝试使用masterURL = yarn-client运行spark作业。使用SparkLauncher 2.10。 java代码包含在nifi处理器中。 Nifi目前正在以root身份运行。当我做纱线申请表时,我看到...

回答 1 投票 0

在hadoop中为nameservice获取活动namenode的任何命令?

命令:hdfs haadmin -getServiceState machine-98仅在您知道计算机名称时才起作用。是否有任何命令:hdfs haadmin -getServiceState 这可以告诉你......

回答 8 投票 7

Amazon EMR - 如何设置步骤的超时

有没有办法为Amazon Aws EMR中的步骤设置超时?我正在EMR上运行一个批量Apache Spark作业,如果它在3小时内没有结束,我希望该作业停止超时。我不能 ...

回答 2 投票 8

如何找到由oozie(hadoop)工作运行的hadoop应用程序

我们知道第一个oozie运行一个hadoop作业并使用该作业运行其他hadoop应用程序。所以我想找到oozie运行的那些hadoop应用程序列表(例如application_231232133)(...

回答 2 投票 0

为什么我不能在AWS Elastic Map Reduce中更改“spark.driver.memory”值?

我想在AWS EMR上调整我的spark集群,我无法更改spark.driver.memory的默认值,因为我的数据集很大,导致每个spark应用程序崩溃。我试过编辑火花-...

回答 1 投票 0

计数操作导致更多的rack_local pyspark

我试图了解Spark集群上的位置级别及其与RDD分区数量的关系以及对其执行的操作。具体来说,我有一个数据框,其中......

回答 1 投票 1

设置“应用程序优先级”是否有任何参数?

我正在寻找一种方法来为蜂巢中的任务设置应用程序优先级。当提交任务时,我想为它设置一个高优先级(如100)。这个参数可以在页面上看到:我正在寻找一个参数...

回答 1 投票 2

在VM群集上安装Presto并将其连接到不同Yarn群集上的HDFS

我们有一个HDP 2.6.4火花群集,有10个linux工作机器。群集通过HDFS运行spark应用程序。 HDFS安装在所有工作人员上。我们希望安装presto,它将查询...

回答 1 投票 3

来自客户端的YARN ContainerID

在客户端提交appContext后,是否可以从YARN客户端获取各种容器ID和主机名?我想这意味着在分配容器之后......

回答 2 投票 4

Hive因查询而陷入困境,可能是什么问题?

我已经安装了Hive并且它正确地执行了基本查询,但是对于像distinct这样的查询却陷入困境。在转到检查问题的链接时,它显示ACCEPTED:等待AM ...

回答 2 投票 0

在Spark-cluster上。有一个参数可以控制spark作业的最小运行时间

我的Spark程序将首先确定输入数据路径是否存在,如果不存在,则安全退出。但退出后,yarn将重试该作业一次。所以,我想一个参数将控制最小...

回答 1 投票 1

为什么Hadoop需要那么多的RAM?

Hadoop容器需要更多的RAM,数据大小itsef(我用于测试0.5GB大小的数据)实际上是它的两倍,为什么它太多了?什么是物理记忆的概念和......

回答 1 投票 1

例外:java.lang.Exception:当使用master'yarn'运行时,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR。在火花中

我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但是我想运行应用程序纱线模式。我在windows中运行apache-spark 2.1.0。这是我的代码c:\ spark> spark -...

回答 2 投票 7

在缓存中找不到Hdfs委托令牌 - Spark应用程序中的错误

我在Spark版本2.3.0中有简单的Spark Streaming应用程序,它将每个已处理批处理的结果放在HDFS上。我的应用程序在部署模式客户端的YARN上运行,我正在使用kerberized ...

回答 1 投票 3

从HDFS目录中读取文件并使用Python在Spark中创建RDD

我有一些文本文件,我想使用这些文件创建一个RDD。文本文件存储在'Folder_1'和'Folder_2'中,这些文件夹存储在'text_data'文件夹中。当文件是......

回答 1 投票 0

Hadoop YARN:获取可用队列列表

有没有办法从命令行获取所有可用YARN队列的列表,而无需解析capacity-scheduler.xml文件?我正在使用Hadoop 2.7.2版

回答 2 投票 4

当缺乏资源时,火花工作需要多长时间等待纱线资源?

当Spark作业无法获得足够的资源来启动时,它就会挂起来等待。它会等多久?如何控制挂起火花作业的超时?谢谢

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.