amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如何在多个子网上运行AWS EMR集群?

当前,我们正在使用EMR中的config.json文件创建实例以配置集群。该文件指定一个子网(“ Ec2SubnetId”)。我所有的EMR实例最终都使用此子网...怎么办...

回答 1 投票 0

在Spark中优化稀疏矢量的总和(并保存到木地板中)

请原谅Pyspark NOOB问题。我在PySpark中生成Spark数据帧的最后阶段如下:indexer = StringIndexer(inputCol =“ kpID”,outputCol =“ KPindex”)输入= [indexer ....

回答 1 投票 0

如何在执行该应用程序后终止的Amazon EMR中将PySpark应用程序作为步骤执行运行?

Spark版本2.4.5,我有一些文件需要在S3存储桶中处理。 (s3a:// tobeprocessed)我有一个pyspark应用程序,该应用程序从S3存储桶中读取文件并将输出写入另一个S3 ...

回答 1 投票 1

在sagemaker sparkmagic pyspark笔记本中安装python包

我想在正在运行的内核中安装新库(而不是自举)。我可以创建一个连接到EMR群集的sagemaker笔记本,但是安装软件包非常麻烦。无法...

回答 1 投票 0


aws emr添加步骤限制;我可以并行运行步骤吗?

我有许多SQOOP作业,我想通过EMR添加步骤启动。我现有的内部部署方法是并行运行它们,直到用完YARN资源为止。我注意到当我创建...

回答 1 投票 0

火花提交与配置单元外壳的查询性能

我花了很多时间调试为什么对hive外部表(支持dynamodb的简单查询)通过spark-submit花费10分钟以上,而在hive shell中仅花费4秒。蜂房...

回答 1 投票 1

[AWS EMR Spark作业在分区或位置更改时读取Athena表胶水

我创建了一个带有'AWS Glue数据目录'的AWS EMR Hadoop集群,用于'for Spark表元数据'。因此,在Spark作业或spark-shell中,我可以编写使用Glue / Athena的Spark SQL ...

回答 1 投票 0

我如何解决NoClassDefFoundError:AWS EMR集群中的org / apache / spark / sql / types / DataType?

在AWS EMR(v 5.23.0)中提交Spark作业,我得到以下错误:线程“ main”中的异常java.lang.NoClassDefFoundError:org / apache / spark / sql / types / DataType位于etl.SparkDataProcessor $ ....

回答 1 投票 0

在emr 5.29.0上运行scala 2.12

我有一个在Scala 2.12中编译的jar文件,现在我想在emr 5.29.0上运行它。我如何运行它们,因为emr 5.29.0的默认版本是scala 2.11。

回答 1 投票 0

使用CLI使用胶水目录创建EMR Hive群集

我想创建EMR Hive群集,它将使用AWS CLI将Glue用作数据目录。我没有在AWS文档中找到任何与此相关的内容,也没有在其他地方进行搜索。这可能吗?

回答 1 投票 0

将dynamodb表复制到配置单元的pyspark代码:不允许操作

我正在尝试使用pyspark代码在AWS emr上从Dynamodb创建一个外部配置单元表。当我在配置单元提示符下执行查询时,查询工作正常,但是当我将其作为pyspark作业执行时,查询失败。 ...

回答 1 投票 2

AWS DAX群集具有零缓存命中和缓存未命中

我正在使用由dax.r4.xlarge节点类型的3个节点组成的AWS DAX集群。当我从EMR集群运行我的spark应用程序时,它总是从dynamodb表中获取值。即使我运行相同的...

回答 1 投票 0

在Hive中始终需要两个表(本地,外部)从AWS EMR中查询DynamoDB表吗?

从AWS EMR查询DynamoDB表是否总是需要两个配置单元表(本地,外部)?我已经使用配置单元外部表创建了本地配置单元表(CTAS,创建表作为选择)...

回答 1 投票 0

Flink:使用StreamingFileSink时设置ACL

我正在尝试将Flink作业(在EMR上运行v1.8)从使用BucketingSink过渡到较新的StreamingFileSink。我已经运行了新代码,几乎所有内容都看起来不错。文件是...

回答 1 投票 0

我的调整大小何时在Amazon EMR中完成?

我正在尝试调整核心节点的数量。最初是两个,然后将其大小调整为10。那时,它运行良好。现在,我尝试将其增加到100。它变为15,然后就没有...

回答 1 投票 0

使用EMR中的spark ad scala从redshift加载数据

我正在尝试使用EMR集群中齐柏林飞艇中的scala将使用spark的redshift与scala连接起来,我使用了spark-redshift库,但是它不起作用。我尝试了许多解决方案,但我不知道为什么会给出错误...

回答 1 投票 -2

s3distcp失败,“ mapreduce_shuffle不存在”

当我在下面运行命令时,s3-dist-cp --src s3://test/9.19 --dest hdfs:/// user / hadoop / test我收到了有关auxService的错误。 20/02/03 07:52:13 INFO mapreduce.Job:任务ID:...

回答 1 投票 1

将弹簧活动配置文件传递到EMR中的Spark App

我已经开发了一个使用Spring Boot的Spark应用,并且将基于作业的Spark作业提交给EMR集群和EMR集群。如果Spark应用程序不是Spring Boot应用程序,则可以按预期工作。 ...

回答 1 投票 0

对于EMR笔记本电脑,IAM角色不存在

我正在尝试在Amazon EMR集群上创建笔记本。我找不到要添加为IAM的笔记本EMR_Notebooks_DefaultRole的默认角色。存在的所有可用角色是:添加...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.