amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如果我在AWS上保留5个弹性IP,我可以获得500次免费重映射吗?

很难从AWS文档中了解每个帐户或每个弹性IP地址每月有100次免费重映射。有经验吗?

回答 1 投票 0

在EMR中运行Jupyter笔记本时,没有名为'pyspark'的模块

一般而言,我是AWS和Spark的新手,我正在尝试在Amazon EMR中运行笔记本实例。当我尝试导入pyspark以启动会话并从s3加载数据时,出现错误No module ...

回答 1 投票 0

当火花动态分配为true时,EMR群集显示太多执行程序

我正在EMR 5.27.0中以集群模式运行spark作业。 EMR的动态火花分配属性设置为true。现在,当我开始执行spark作业甚至启动spark shell时,我可以看到许多执行程序...

回答 1 投票 0

使用PySpark读取时过滤实木复合地板文件

我在AWS s3中存储了庞大的分区镶木地板文件数据集,我只想使用AWS EMR从每个月的数据中读取一个样本。我必须按值“ user_id”过滤每个月的数据...

回答 1 投票 1

ExitCodeException exitCode = 13通过EMR控制台运行PySpark时

我正在尝试通过控制台在EMR上运行pyspark脚本。为此,我首先在本地测试了该脚本,然后从s3下载了一个小的csv示例到我的计算机,并使用spark-submit编写了...

回答 1 投票 0

Spark写入拼花作业已完成,但开始新作业的时间过长

我正在AWS EMR上运行Spark 2.4.4,并且在将Spark Parquet文件写入S3之后经历了很长的延迟。我检查了S3写入过程应该在几秒钟内完成(数据文件和_success ...

回答 1 投票 1

如何在不使用Spark的情况下从AWS EMR内部读取S3存储桶中的文本文件

我需要从EMR群集中打开位于S3存储桶中的常规文本文件(而不是镶木地板或CSV文件)。我可以直接使用spark.read.parquet(“ s3:// mybucket / ...

回答 1 投票 0

Hive查询在Tez上失败,但从Beeline连接时在Map-Reduce上成功

我遇到了一个奇怪的错误。我正在运行带where子句的简单select *查询,以下是查询执行状态的摘要:从EMR(Tez引擎)连接到Hive-后继...

回答 2 投票 0

为什么执行火花提交作业而使进程在群集(EMR)主节点上运行?

我正在通过AWS lambda函数向Livy提交火花作业。作业将运行到驱动程序的末尾,但不会关闭。如果将spark.stop()或sc.stop()添加到...的末尾...

回答 1 投票 0

如何将变量从EMR群集传递到Jupyter Notebook %% local实例?

当我使用%% local在托管的Jupyter笔记本实例上运行代码时,如何使用在EMR群集的Python实例中定义的变量?具体来说,我想使用如下所示的matplotlib ...

回答 1 投票 0

EMR Hadoop长期运行的作业被杀死

当我使用一个映射器运行Sqoop时,我具有一个EMR群集,用于将700万条记录查询作为Avro文件传输到S3。 30分钟(+/- 5分钟)后,地图任务有时会被杀死,并且...

回答 1 投票 1

使用步骤功能运行AWS EMR集群

我对AWS Step Functions和AWS Lambda Functions非常陌生,确实可以使用一些帮助来使EMR群集通过Step Functions运行。我当前的状态机结构的示例是...

回答 1 投票 0

即使已配置EMR,也找不到Spark org.postgresql.Driver

我正在尝试使用以下代码将pyspark数据帧写入Postgres数据库:mode =“ overwrite” url =“ jdbc:postgresql:// host / database” properties = {“ user”:“ user”,“密码”:“密码” ...

回答 1 投票 0

火花提交额外的容器

虽然使用静态分配执行Spark提交,但产生的容器数量高于num-executors手动提交中提到的数量。作业为何的任何特定原因...

回答 1 投票 0

如何在AWS EMR上安装Hadoop 3?

Hadoop 3已有15个月的历史了,并且EMR正式发行标签仍仅支持Hadoop2。我找不到关于如何在EMR上设置Hadoop 3.1.2的快速文档。大多数人不是...

回答 1 投票 -1

监控子网带宽

我在一个EMR(Spark群集)中有一个批处理作业,该作业将批量插入另一个EMR(HBase群集)。两个EMR都位于同一专用子网中。如何监视两个之间的带宽...

回答 1 投票 0

EMR + S3:如何实现RACK_LOCAL

AFAIK,EMR已针对从S3进行读写进行了高度优化,并且在从S3进行读取时具有RACK_LOCAL数据局部性。对我来说,这意味着它们始终位于同一可用区(AZ)中。在...

回答 1 投票 1

将镶木地板文件写入s3时出现奇怪错误

[尝试将数据帧写入S3时,我得到了nullpointerexception的以下错误。有时工作进展顺利,有时失败。我正在使用EMR 5.20和spark 2.4.0 ...

回答 1 投票 0

Spark K-means性能随着更多的节点/实例而降低

我正在使用Spark MLLib在AWS EMR上执行K-means集群。数据集大约是10 ^ 6行和9个特征列。我正在使用的实例大小具有8vCPU和32GB内存。我...

回答 1 投票 0

在AWS EMR Jupyter Notebook中,如何将用户从livy更改为hadoop

我创建了一个AWS EMR集群,并上传了sparkify_log_small.json并使用下面的代码创建了一个EMR Jupyter Notebook,该代码认为它可以从用户(hadoop)主目录读取。 sparkify_log_data = ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.