amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

星火流调度的最佳实践

我们有运行,每30分钟,并采取15秒完成作业的火花流作业。什么是建议在此情况下的最佳实践。我想我可以安排AWS datapipeline运行...

回答 2 投票 1

要安装熊猫对亚马逊EMR运行Pyspark

这个问题真的可以适用于任何Python包。我有一个在我的星火作业运行的启动脚本,我认为我需要在脚本安装大熊猫。我试过很多不同的...

回答 1 投票 2

检索具有使用boto3的自动缩放设置EMR集群列表

在AWS拉姆达使用EMR boto3我能找回它有自动缩放参数设置与否集群列表?如果它可能然后boto3客户端应该从这个链接中使用。 https://开头...

回答 1 投票 0

如何将EMR流作业日志复制到S3并清除EMR核心节点磁盘上的日志

[好,我正在AWS EMR 5.20上运行Flink(v1.7.1)流作业,我希望在S3中拥有我的作业的所有task_managers和job_manager的日志。按Flink的建议使用Logback ...

回答 1 投票 0

蜂巢时间戳示数为二进制

我试图插入到表与在AWS上的EMR集群的查询。该表是正确创建,和他的同事可以运行,我使用完全相同的代码,它不会失败。然而,当我...

回答 2 投票 1

AWS EMR蜂巢:尚不支持地方UDAF“计数”

我有我想转换在与蜂巢使用一个相当复杂的查询。具体地讲,我运行它作为在AWS EMR集群蜂房“步骤”。我试图清理查询了一下的...

回答 1 投票 0

“集装箱通过纱线超出内存限制杀害。 10.4 GB 10.4 GB物理存储器中使用的”一个EMR集群上的内存75GB

我运行在AWS EMR 5节点火花集群的每个尺寸m3.xlarge(1个主4个从站)。我经历了146Mb bzip2压缩的CSV文件成功运行,并且结束了一个完美的聚合结果。 ...

回答 5 投票 30

运行EMR星火随着多个S3账户

我有一个需要一个帐户从S3读取数据并写入到另一个EMR星火工作。我拆我的工作分为两个步骤。读从S3的数据(没有因为我的EMR集群所需的凭据...

回答 2 投票 8

使用直线时,连接到撵上启用了Kerberos EMR集群为什么我们使用Hive服务主体?

我试图连接使用EMR集群上直线蜂巢(支持Kerberos),我想知道为什么我会跑的kinit(使用我的用户帐户),然后执行以下操作:直线-u“的jdbc:hive2:// .. 。

回答 1 投票 0

无法在新的AWS EMR集群中获取SparkContext

我刚刚建立了一个AWS EMR集群(带有Spark 2.3.2的EMR版本5.18)。我ssh到主maschine并运行spark-shell或pyspark并得到以下错误:$ spark-shell log4j:ERROR setFile(...

回答 3 投票 15

CloudWatch:一些指标需要一直计算,而不是一段时间

我配置了由YARN应用程序故障触发的AWS :: CloudWatch :: Alarm。消息发送到Slack(Alarm-> SNS-> Lambda-> Slack)。问题是AWS / EMR,AppsFailed指标返回...

回答 1 投票 0

Amazon EMR群集上Sqoop安装的位置?

我启动了一个EMR群集以使用测试sqoop,但事实证明它似乎未安装在最新版本的EMR(5.19.0)上,因为我在目录/ usr / lib / sqoop中找不到它。我尝试过...

回答 2 投票 0

需要帮助从json输出中获取特定值

我需要从下面的代码中获取Tag值,它最初获取Id然后将其传递给describe_cluster,然后该值为json格式。试图获取特定值...

回答 1 投票 0

将pyspark脚本提交到远程Spark服务器?

这可能是一个非常愚蠢的问题,但我找不到谷歌的答案。我写了一个简单的pyspark ETL脚本,它读取CSV并将其写入Parquet,如下所示:spark = ...

回答 1 投票 1

来自AWS EMR的SparkContext Java Deploy Job和MapReduce

您正在搜索网络和亚马逊文档,了解如何在aws上的现有emr纱线群集上运行火花作业。我陷入了以下困境。我已经设置了本地[*] ...

回答 1 投票 2

Hive是否有与DUAL相同的东西?

我想运行SELECT date_add('2008-12-31',1)FROM DUAL等语句Hive(在Amazon EMR上运行)有类似的东西吗?

回答 6 投票 18

使用spark保存并处理大量小文件

我是大数据的新手!我有一些关于如何处理以及如何在EMR集群中保存大量小文件(pdf和ppt / pptx)的问题。我的目标是将数据(pdf和pptx)保存到...

回答 2 投票 3

aws emr无法在bootstrap上更改默认的pyspark python

我正在使用aws与emr,并尝试更改为bootstrap脚本,以便将pyspark中的默认python设置为python 3,我正在按照本教程更改/ usr / lib / spark / conf / ...

回答 1 投票 2

如何解决YARN日志中的日志聚合未完成或未启用错误

我正在使用EMR 5.4并且我向纱线提交火花作业当我尝试使用纱线日志-applicationId application_1528461193301_0001来检索日志时,我有以下错误:18/06/08 12:38:01 INFO ...

回答 1 投票 2

通过REST提交EMR Yarn应用程序

我在AWS中有一个带有YARN的Hadoop集群,我向其提交了spark应用程序。我通过REST请求工作,提交本文档中指定的XML:YARN REST API。它适用于......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.