amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如何从Airflow向EMR集群提交Spark作业?

如何在EMR主集群(由Terraform创建)和Airflow之间建立连接。我在AWS EC2服务器下设置了具有相同SG,VPC和子网的Airflow。我需要解决方案,以便Airflow ......

回答 2 投票 1

如果有办法在运行时获取有关SparkMetrics配置的信息

我使用CSV sinc将metrics.properties文件添加到资源目录(maven项目)。当我在本地运行Spark应用程序时,一切都很好 - 会出现指标。但是当我向亚马逊EMR提交相同的胖罐时,我做...

回答 1 投票 0

如何监控AWS EMR中的Apache Flink(ElasticMapReduce)?

我目前有Flink设置并在EMR上运行作业,我现在正尝试通过向prometheus发送指标来添加监控。我遇到过在EMR上运行Flink的问题。我正在使用 ...

回答 2 投票 2

Spark 2.3动态分区不适用于S3 AWS EMR 5.13.0

写入S3时,Spark 2.3引入的动态分区似乎不适用于AWS的EMR 5.13.0执行时,会在S3中创建一个临时目录,但一旦进程处于...就会消失。

回答 1 投票 7

AWS EMR java sdk - withKeepJobFlowAliveWhenNoSteps

我在EMR上有一个正在运行的集群,它处于“开始”步骤。是否可以编辑它的参数以使用KeepJobFlowAliveWhenNoSteps从false更改为true?我希望它不会在我死的时候...

回答 1 投票 0

AWS Data Pipeline未创建所有从/核实例节点

我尝试使用CLI创建AWS Data管道,并使用GUI。无论哪种方式,当我指定多个从属节点时,它都无法正确创建。以下是一个示例定义:{...

回答 2 投票 0

当Master公共DNS指向内部时,如何连接到emr mastere节点?

我正在尝试连接到emr主节点,如此处所述输入链接描述:但是putty报告我:执行aws emr describe-cluster --cluster-id my_cluster_id给了我相同的ip-XX -...

回答 1 投票 0

Apache Spark 2.4.0,AWS EMR,Spark Redshift和User类引发了异常:java.lang.AbstractMethodError

我使用Apache Spark 2.4.0,AWS EMR和Spark Redshift,现在在Spark DataFrame中读取Redshift表时遇到以下错误:User类抛出异常:java.lang ....

回答 1 投票 0

有没有办法杀死蜂巢作业而不会杀死AWS EMR集群

我使用AWS EMR集群来运行HIVE查询。对于查询优化的目的,有时我需要杀死一个长时间运行的步骤,但保持EMR集群的生存,以便我可以继续使用它。有没有办法做到这一点......

回答 1 投票 0

为什么只有老一代实例类型可用于EMR?

当前几代大多是“5”系列,如c5,m5和r5 https://aws.amazon.com/ec2/pricing/on-demand/:但是当选择EMR的实例类型时,最新一代只有.. 。

回答 1 投票 0

AWS EMR在群集模式下使用spark步骤。应用程序_已完成状态失败

我正在尝试使用AWS Cli启动集群。我使用以下命令:aws emr create-cluster --name“Config1” - release-label emr-5.0.0 --applications Name = Spark --use-default-role --log-uri's3:.. 。

回答 3 投票 1

如何执行从s3加载更多脚本的EMR步骤?

我想执行一个shell脚本作为EMR的一个步骤,它加载一个tarball,解压缩并在里面运行脚本。我选择此设置以尽可能保持与供应商无关。我的脚本是#!/ bin / sh aws s3 ...

回答 1 投票 1

在Amazon EMR中执行Zeppelin笔记本作为重复工作

我正在从Databricks迁移到Amazon EMR,并计划使用Zeppelin笔记本代替Databricks笔记本。目前,许多Databricks笔记本计划作为工作。有没有 ...

回答 1 投票 0

在大文件的EMR上运行时,Hive Vertex失败,vertexName = Map 2

我在EMR集群上运行我的hive查询,该集群是25个节点的集群,我在stances中使用了r4.4xlarge来运行它。当我运行我的查询时,我得到以下错误。作业提交失败,异常'......

回答 2 投票 0

如何配置aws lambda以便能够访问emr主节点上的服务?

我的AWS Lambda函数无法访问主节点上运行的配置单元服务器。它会超时 - 就像您尝试从非白名单的IP访问节点一样。显然加上......

回答 1 投票 0

从EMR迁移到AWS Glue后,Spark SQL中找不到表

我在EMR上有Spark作业,EMR配置为使用Glue目录来获取Hive和Spark元数据。我创建了Hive外部表,它们出现在Glue目录中,我的Spark作业可以......

回答 2 投票 0

AWS EMR:解析参数时出错:预期:'=',收到:'EOF'表示输入:

我正在尝试从我的一个EC2实例中创建一个集群。键入以下命令以启动我的集群 - aws emr create-cluster --release-label emr-5.20.0 --instance-groups instance -...

回答 1 投票 0

Amazon EMR terminateJobFlow用于具有超过可以终止的最大群集的请求

我正在使用AWSElasticMapReduceJavaClient-1.11.x,并且EMR可以一次终止的最大集群是10.我将如何终止请求,让我们说100个集群在一个...

回答 1 投票 1

在EMR引导期间获取“现有锁定/var/run/yum.pid:另一个副本作为pid运行...”

作为bootstraping步骤的一部分,我需要在我的EMR集群(AMI 3.1.1)中安装python3。所以我添加了以下命令:sudo yum install -y python3但每次我收到错误说...

回答 3 投票 0

使用Airflow dag运行创建EMR群集,一旦任务完成,EMR将被终止

我有Airflow作业,它们在EMR集群上运行良好。我需要的是,假设我有4个气流工作需要一个EMR集群让我们说20分钟完成任务。我们为什么不......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.