amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

在 AWS EMR 集群上安装 my_sql 时出错

我正在尝试在我的 EMR 集群上启动 MYSQL,但它显示为 ERROR 1045 (2800): Access denied as shown in picture posted 。我应该做什么?错误 执行这些命令后: wget https:/...

回答 1 投票 0

使用自定义密钥提供程序的 AWS EMR 加密 - 自签名与受信任的 CA 证书

希望使用自定义证书在 EMR 节点之间进行传输加密。由于我没有使用自己域的 DHCP 选项集,因此 EMR 实例将拥有类型为 *...

回答 0 投票 0

获取VS代码Python扩展以连接到远程AWS EMR主节点上运行的Jupyter。

我有一个工作的Jupyter服务器运行在EMR主节点上,我可以运行python和pyspark代码,没有问题。当试图让VS Code Python扩展连接到非常相同的 ...

回答 1 投票 0

在AWS EMR上遇到Spark作业的CPU利用率非常低的情况。

我们有一个spark作业,读取csv文件,并应用一系列的转换,并将结果写入一个orc文件,spark作业分为近20个阶段,并运行了约一个小时......

回答 1 投票 0

添加pyspark脚本作为AWS步骤

我有一个pyspark脚本来读取一个xml文件(存在于S3中)。我需要将其添加到aws中作为一个步骤。我已经使用了以下命令aws emr add-steps - cluster-id。 - 步骤 Type=spark,...

回答 1 投票 0

从Pyspark EMR访问AWS RDS。

我正试图使用EMR中的Pyspark访问RDS中的一些表。我试着在usrsharejava中安装JDBC驱动程序,但看起来像火花没有从pyspark.sql导入的驱动程序......

回答 1 投票 0

未找到AWS EMR psycopg2模块。

我正在AWS Elastic Map Reduce集群中执行一个spark作业。我有同样的问题与boto3。然而,我用我的bootstrap脚本解决了这个问题,如下#!binbash sudo pip-3.6 install ....

回答 1 投票 0

AWS EMR Bootstrap的添加或更新

我已经创建了一个AWS EMR集群。是否可以将bootstrap动作添加到现有的EMR集群中?我打算只将它用于任务节点(在自动伸缩期间)。我已经通过AWS ...

回答 1 投票 0

从hadoop1迁移到hadoop2后,如何恢复hadoop Map reduce作业的性能?

从hadoop 1.0.3 ->hadoop 2.8.5迁移后,Hadoop Map reduce作业性能(执行作业时间)下降(5min->15min),详情如下。我有Hadoop Map reduce作业在AWS EMR中执行。

回答 1 投票 0

spark如何获取读取parquet文件的任务数?

我有271个parquet小文件(9KBfile)在同一个目录下的s3 bucket。所以,我想了解spark在读取这些文件时是如何得到任务数的?集群是aws EMR 5.29 ....

回答 1 投票 0

在调用o67.load时发生错误:java.lang.NoClassDefFoundError:orgapachehadoopfsstagingStagingDirectoryCapable。

场景如下。我试图计算一个文件的记录计数 在s3位置,从EMR通过读取它的火花。我得到的错误是:当调用o67.load时:java...。

回答 1 投票 0

如何创建一个限制资源的自动缩放IAM角色?

如果我正在创建自定义的自动缩放策略,并尝试只限制资源statrting与KJ,而创建EMR自动缩放状态是失败的,除此之外,如果我指定 "*",那么它的工作......

回答 1 投票 0

如何添加EMR火花步骤?

根据文档。对于步骤类型,选择Spark应用。但在Amazon EMR -> Clusters -> mycluster -> Steps -> Add step -> Step type中,唯一的选项是:对于步骤类型,选择Spark应用。

回答 1 投票 0

topic

通过mapPartitions类型的方法。

回答 1 投票 0

start_date

我有一个 pyspark 数据框架,其中包含两列,我想从这两列中创建一个时间戳。

回答 1 投票 1

不能用Java JDBC从AWS EMR上的Presto连接查询。

如果我ssh到presto emr集群的主节点上,我可以运行查询。然而,我希望能够在连接到emr集群的本地机器上从java源代码运行查询。I ...

回答 1 投票 1


使用DynamoDBMapper加密EMR中的数据时出现IllegalAccessError。

我按照这个文档:https:/docs.aws.amzon.comdynamodb-encryption-clientlatestdevguidejava-examples.html和设置加密客户端和映射器来加密一个项目并批量保存到Table ...

回答 1 投票 0

aws EMR 5.23.0版本是否支持python 3.7.x版本?

目前,我们使用EMR 5.23.0版本来提交pyspark作业,我们想把python版本升级到3.7,想了解一下目前EMR 5.23.0版本是否支持python 3.7。我们想把python版本升级到3.7,想检查一下当前EMR 5.23.0版本是否支持python 3.7。没有...

回答 1 投票 0

用spark读取多个json模式。

软件配置:Hadoop发行版:Amazon 2.8.3 应用:Hive 2.3.2,Pig 0.17.0,Hue 4.1.0 Hadoop distribution:Amazon 2.8.3 Applications:Hive 2.3.2, Pig 0.17.0, Hue 4.1.0, Spark 2.3.0 Tried to read with multiple json schema, val df = spark.read.option("...")

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.