amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

即使指定了hadoopConfig,Spark也无法写入S3加密存储桶

[当我尝试从运行在EMR上的我的Spark Streaming App写入经过AES-256加密的AES-256加密的S3存储桶时,它会抛出403。无论出于什么原因,Spark会话都不遵守“ fs.s3a.server-。 。

回答 1 投票 0

EMR上的Hive |映射器数量|蜂房指向S3位置

Q1。我有一个指向S3位置的配置单元表“比率”,每个位置仅包含两个大小为677MB的文件:当我计算记录总数时,它仅启动2个映射器。为什么会这样呢?如何...

回答 1 投票 0

EMR主节点和从节点的自定义端口列表

我正在处理一个数据项目,我正在使用EMR集群进行数据处理。我的AWS环境受到限制,不允许我使用EMR管理安全组。为此,我需要自定义列表...

回答 1 投票 0

S3存储桶策略和EMR-示例

我找不到S3 BucketPolicy的示例,该示例仅允许EMR从中读取数据。 EMR将与S3在同一帐户中。有人可以分享任何例子吗?

回答 1 投票 1


如何在AWS emr的Json配置中添加标签

我如何在Amazon emr的json配置中添加--tags。我尝试将其放置在下面。但这是行不通的。这是我的配置。 {“ Name”:“ EMR”,“ LogUri”:“ ------”,“ Tags :: [{...

回答 1 投票 0

所有执行者都死掉了EMR群集上的MinHash LSH PySparkroxSimilarityJoin自联接

在(name_id,name)组合的数据帧上调用Spark的MinHashLSH的roximatedSimilarityJoin时遇到问题。我尝试解决的问题的摘要:我的数据帧大约为30 ...

回答 1 投票 0

当所有步骤都完成时如何从Lambda终止EMR群集?

我试图弄清楚一旦提交给它的所有步骤都已“完成” |“已取消” |“失败” |“已中断”,我如何才能成功终止EMR集群。有三个Lambda函数。 ...

回答 1 投票 0

EMR引导程序失败

我正在尝试在AWS EMR中运行以下启动脚本,但失败而未提供错误消息。我已经为以下应用程序设置了EMR集群:Spark,Hive,Ganglia和Livy。 !/ bin / ...

回答 1 投票 0

有关EMR(AWS)的笔记本:无法启动内核

我正在按照官方文档中的步骤使用“ Amazon EMR”中的内置选项创建一个笔记本,所有内容均作为默认的EMR-Cluster,由...- Wizzard创建,之后...

回答 1 投票 1

数据管道和EMR错误:未找到默认VPC。但是我无权创建默认的VPC

我需要将DynamoDB表导出到S3存储桶。我已经创建了数据管道,但是它处于“等待运行器”状态,因此我检查了runsOn值,并显示“ EmrClusterForBackup”。然后我...

回答 1 投票 1

当由cloudformation模板形成时,AWS cloudwatch警报无法访问EMR群集指标中的数据

{“ AWSTemplateFormatVersion”:“ 2010-09-09”,“元数据”:{“ AWS :: CloudFormation :: Designer”:{“ 0146279a-ddf6-40fa-bf45-612cebe20c3f”:{“大小”:{。 ..

回答 1 投票 0

如何将boto3安装到EMR群集上以与Jupyter Notebook一起使用

我在EMR上安装boto3时遇到问题。这是我当前正在使用的引导脚本:#!/ bin / bash#安装Python 3内核sudo yum install python3 sudo yum install python3-pip sudo ...

回答 1 投票 0

如何将YARN应用程序日志保留在本地文件系统而不是HDFS中?

我将yarn.log-aggregation-enable设置为true,这使NodeManager可以立即将所有容器日志串联到一个文件中,并将它们上传到$ {yarn.nodemanager.remote-app -...]中的HDFS中。

回答 1 投票 0

在EMR笔记本jupyter中设置spark.driver.maxResultSize

我正在emr中使用Jupyter笔记本来处理大块数据。处理数据时,我看到此错误:调用z:org.apache.spark.api.python.PythonRDD.collectAndServe时发生错误。 :...

回答 1 投票 0

引导脚本中的某些命令不起作用

基于评论。 此问题是由User data脚本中的用户更改引起的。解决方案是不更改它,而使用默认用户。在这种情况下,用途为hadoop。

回答 1 投票 0

从EMR上的pyspark到S3或Redshift加载1.5 GB数据帧的平均时间

我正在使用一个具有1个主节点(m5.2x大)和4个核心节点(c5.2xlarge)的EMR集群,并在其上运行PySpark作业,该作业将联接5个事实表,每个150个列和10万行,以及5个小尺寸...

回答 1 投票 0

Zeppelin JDBC解释器在0.9.0-preview1版本中给出了错误

我正在将齐柏林飞艇从0.8.0升级到0.9.0。设置JDBC解释器以访问Postgres数据库时,出现错误。我在Zeppelin GUI中创建了“ JDBC.postgres”解释器...

回答 1 投票 0


尝试使用AmazonElasticMapReduce运行作业流程时出错

[我正在尝试使用AmazonElasticMapReduce运行作业流程,并且收到以下错误:线程“ main” com.amazonaws.services.elasticmapreduce.model ...中的异常...]

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.