amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

AWS EMR:群集在用户请求中终止

我正在尝试通过美国西部地区的AWS控制台创建新的/克隆现有集群。群集开始创建,然后,在1分钟(或甚至更少)之后,它开始自行终止,给出...

回答 1 投票 0

EMR笔记本安装其他库

我通过我的EMR笔记本使用其他库时非常困难。 EMR的AWS界面允许我创建Jupyter笔记本并将它们附加到正在运行的集群。 ID ...

回答 2 投票 15

ImportError:没有名为mime.base的模块

即使我没有在我的python脚本中使用与电子邮件相关的模块。我继续得到这个错误Saying ImportError:在EMR上没有名为mime.base的模块。但是在运行pySpark作业时我很好

回答 1 投票 -1

使用自定义AMI时,AWS EMR配置失败

问题:我在云信息模板中定义了EMR集群(以及许多其他资源)。我使用AWS rest api来配置我的堆栈。它有效,我可以配置堆栈......

回答 2 投票 0

Apache Zeppelin是否足够稳定,可用于生产

我正在使用AWS EMR集群。我一直在尝试使用Spark Drivers和Apache Zeppelin Rest API来运行作业。我和Zeppelin一起经营了几百个临时工作,并没有任何顾虑。 ...

回答 3 投票 3

EMR-4.2.0自定义Jar文件错误

我在AWS - EMR-4.2.0版本中运行sqoop安装脚本,遵循此文档。创建集群(在步骤)后,我已将我的sqoop脚本作为参数提交,并且s3:// ...

回答 3 投票 2

使用zeppelin,scala和EMR在spark中配置调度池

在pyspark中,我可以通过执行以下操作在zeppelin(在AWS EMR上)中更改为公平的调度程序:conf = sc.getConf()conf.set('spark.scheduler.allocation.file','/ etc / spark /conf.dist / ...

回答 1 投票 2

初始化SparkContext时,jvm错误中不存在pyspark错误

我正在使用spark over emr并编写一个pyspark脚本,我在尝试从pyspark导入时遇到错误导入SparkContext sc = SparkContext()这是错误文件“pyex.py”,第5行,

回答 7 投票 6

如何在Amazon EMR中运行的Presto中将分区添加到分区表?

我在EMR 5.19.0中运行Apache Presto 0.212,因为AWS Athena不支持Presto支持的用户定义函数。我正在使用配置为使用胶合模式的EMR。我有预...

回答 1 投票 0

亚马逊EMR上的Spark:“超时等待来自池的连接”

我正在小型三台服务器Amazon EMR 5(Spark 2.0)集群上运行Spark工作。我的工作运行了一个小时左右,因以下错误而失败。我可以手动重启,它可以工作,处理更多数据,......

回答 2 投票 13

如何在EMR上设置减速器数量

我有一系列Mapper和Reducer任务,我通过aws上的自定义jar步骤运行。我想通过一个reducer运行最后一个reducer任务。我怎样才能做到这一点?

回答 2 投票 -1

AWS胶水数据目录作为EMR上的Spark SQL Metastore的问题

我正在使用带有Spark(v2.2.1)的AWS EMR集群(v5.11.1)并尝试使用AWS Glue Data Catalog作为其Metastore。根据AWS官方文档中提供的指南(参考链接),我......

回答 1 投票 4

如何使用terraform在EMR创建中启动Spark作业

我的用例如下。通过Terraform我想创建一个EMR集群,启动一个Spark Job并在作业完成后终止集群。我在Terraform中找到了这个步骤机制......

回答 1 投票 1

使用Terraform为EMR上的Presto / Spark启用胶水目录的选项

想知道在EMR上运行时是否支持为Presto / Spark启用aws胶水目录。在文档中找不到任何内容。

回答 2 投票 0

在EMR环境中将JAR提交给Spark时,FileNotFoundException(stderr&stdout)

我正在关注Udemy的'Apache Spark with Scala - Hands on the Big Data'课程。在其中一个讲座中,您必须设置EMR环境并将JAR文件提交到群集。什么时候 ...

回答 2 投票 2

AWS EMR Spark --properties-file类com.amazon.ws.emr.hadoop.fs.EmrFileSystem未找到

我正在尝试使用以下命令从AWS EMR emr-5.20.0主节点提交Spark应用程序:spark-submit --executor-memory 4g --deploy-mode cluster --master yarn --class com.example。 ...

回答 1 投票 0

Amazon EMR Flink上的Scala版本不匹配

尝试在Amazon EMR Flink(5.21.0)上运行Flink(v 1.7.0)作业。我得到异常java.lang.NoSuchMethodError:scala.Product。$ init $(Lscala / Product;)V异常看起来像SCALA版本问题。一世 ...

回答 2 投票 0

调用DescribeVpcEndpoints操作时发生错误(UnauthorizedOperation):您无权执行此操作

我在执行lambda时遇到此错误调用DescribeVpcEndpoints操作时发生错误(UnauthorizedOperation):您无权执行此操作。我......

回答 1 投票 0

针对> 300,000个组的groupBy的AWS EMR Spark应用程序调整

步骤:1)从S3读取文件(140-200 GB)。 2)然后我应用filter()函数,删除大多数记录的地图(大约70%将被删除)。 3)剩余记录(总计约40-50 GB),......

回答 1 投票 0

如何从EMR连接到GCS

我们在EMR集群上运行了一个火花流应用程序,我们需要将流式数据以镶木地板格式存储到Google Cloud Storage。请有人帮帮我。

回答 2 投票 -2

© www.soinside.com 2019 - 2024. All rights reserved.