emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

EMR集群CORE节点上的执行器

在EMR集群中我有1个MASTER、1个CORE和4个TASK节点。看来 YARN 不仅在 TASK 节点上而且还在 CORE 节点上创建 CPU 绑定的 SPARK 执行器。有什么办法可以防止它......

回答 2 投票 0

在 EMR 上运行 Python Spark

我们在 EMR 上运行 python Spark 作业遇到了困难。 aws emr add-steps --cluster-id j-XXXXXXXX --steps \ 类型=CUSTOM_JAR,名称=“Spark 程序”,\ Jar =“command-runner.jar”,ActionOnFailure = CONT...

回答 2 投票 0

开放EMR和HL7

我对 EMR 和 HL7 非常陌生。 我单独安装了 Joomla CMS 和 OpenEMR。我需要 JoomlaCMS 将 HL7 消息发送到 OpenEMR 并通过互联网接收 HL7 中的响应。 我不知道...

回答 2 投票 0

Spark on 纱线模式以“退出状态:-100。诊断:在*丢失*节点上释放容器”

我正在尝试使用最新的 EMR 加载包含 1TB 数据的数据库以在 AWS 上触发。而且运行时间太长了,连6个小时都没有完成,但是运行了6h30m后,我得到了一些错误

回答 8 投票 0

Spark 2.0 状态:完成 纱线上的退出状态代码 -100

有人可以向我指出有关 -100 退出代码含义的文档吗? EMR 集群,YARN 上的 Spark 2.0.0(根据 EMR 标准 Spark 集群部署)。我看过 https://www.cloudera.com/documentation/

回答 1 投票 0

使用 AWS Data Pipelines 运行计划的 EMR Spark 应用程序的自定义指标

对于我们的项目,我们有一个在 EMR 集群上运行的 spark 应用程序 - 它使用 AWS Data Pipelines 按计划运行。 (即实例在应用程序/作业完成后关闭)。我是

回答 0 投票 0

如何并发运行EMR集群步骤?

你好,我有一个EMR集群。每当我向它提交 "步骤 "时,它都会按顺序运行它们。有什么方法可以同时运行 "步骤 "吗?或者说,合适的用例是将多个集群旋转起来,在 ...

回答 2 投票 7

pyspark的SparkUI-每个阶段对应的代码行?

我在AWS集群上运行了一些pyspark程序。我正在通过Spark UI监视作业(请参见附件)。但是,我注意到与scala或Java spark程序不同,该程序显示每个Stage都是...

回答 1 投票 9

AWS EMR Hadoop管理

我们当前在组织中使用Apache Hadoop(Vanilla版本)。我们正计划迁移到AWS EMR。我试图了解AWS EMR Hadoop在内部如何工作(而不是如何使用它),主要是...

回答 2 投票 0

AWS EMR YARN容量调度程序配置

我正在尝试通过引导操作来启动EMR群集,以配置YARN调度程序。这是我用来查找值的文章。 http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide / ...

回答 1 投票 1

在AWS EMR上运行Spark,如何在主节点上运行驱动程序?

似乎默认情况下,EMR将Spark驱动程序部署到CORE节点之一,导致MASTER节点实际上未被利用。是否可以在MASTER节点上运行驱动程序...

回答 2 投票 10

其中没有“ =”的配置单元分区表的S3文件夹结构

我具有这样的现有S3文件夹结构,s3:// mydata / {country} / {date} / {country}可以是30个不同的国家中的任何一个{date}可以是自20150101起的任何日期在Hive中...

回答 1 投票 2

番石榴/星火问题

我的Spark版本为2.2.0,它在本地运行,但在具有相同版本的EMR上,它具有以下异常。 org.apache.spark.SparkException:作业中止。在org.apache.spark.sql.execution.datasources ....

回答 1 投票 0

凤凰表上的配置单元查询抛出ColumnNotFoundException

我使用hbase和hive(hive-server2)运行EMR集群。我的ETL管道使用数据创建并填充Phoenix表。如果不存在则创建表UNMAPPED_FACTS(ACCOUNT VARCHAR NOT NULL,...

回答 1 投票 1

如何设置使用云的形成脚本EMR集群的根设备EBS卷

我想推出使用AWS云的形成脚本的AWS EMR集群。我不能够设置根设备EBS卷的大小。默认情况下,它会创建大小为10 GB的容量。我希望我的群集应当有50 ...

回答 1 投票 1

AWS EMR星火Python记录

我跑在AWS EMR一个非常简单的Spark的工作,似乎无法从我的脚本中的任何日志输出。我已经与印刷试图标准错误:从pyspark进口SparkContext进口SYS如果__name__ ==” ...

回答 3 投票 14

“集装箱通过纱线超出内存限制杀害。 10.4 GB 10.4 GB物理存储器中使用的”一个EMR集群上的内存75GB

我运行在AWS EMR 5节点火花集群的每个尺寸m3.xlarge(1个主4个从站)。我经历了146Mb bzip2压缩的CSV文件成功运行,并且结束了一个完美的聚合结果。 ...

回答 5 投票 30

EMR-4.2.0自定义Jar文件错误

我在AWS - EMR-4.2.0版本中运行sqoop安装脚本,遵循此文档。创建集群(在步骤)后,我已将我的sqoop脚本作为参数提交,并且s3:// ...

回答 3 投票 2

在EMR引导期间获取“现有锁定/var/run/yum.pid:另一个副本作为pid运行...”

作为bootstraping步骤的一部分,我需要在我的EMR集群(AMI 3.1.1)中安装python3。所以我添加了以下命令:sudo yum install -y python3但每次我收到错误说...

回答 3 投票 0

为什么EMR上的Yarn不会将所有节点都分配给运行Spark作业?

我在Amazon Elastic Map Reduce(EMR)上运行Apache Spark上的工作。目前我正在运行emr-4.1.0,其中包括Amazon Hadoop 2.6.0和Spark 1.5.0。当我开始工作时,YARN正确地......

回答 2 投票 12

© www.soinside.com 2019 - 2024. All rights reserved.