amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

spark如何获取读取parquet文件的任务数?

我有271个parquet小文件(9KBfile)在同一个目录下的s3 bucket。所以,我想了解spark在读取这些文件时是如何得到任务数的?集群是aws EMR 5.29 ....

回答 1 投票 0

在调用o67.load时发生错误:java.lang.NoClassDefFoundError:orgapachehadoopfsstagingStagingDirectoryCapable。

场景如下。我试图计算一个文件的记录计数 在s3位置,从EMR通过读取它的火花。我得到的错误是:当调用o67.load时:java...。

回答 1 投票 0

如何创建一个限制资源的自动缩放IAM角色?

如果我正在创建自定义的自动缩放策略,并尝试只限制资源statrting与KJ,而创建EMR自动缩放状态是失败的,除此之外,如果我指定 "*",那么它的工作......

回答 1 投票 0

如何添加EMR火花步骤?

根据文档。对于步骤类型,选择Spark应用。但在Amazon EMR -> Clusters -> mycluster -> Steps -> Add step -> Step type中,唯一的选项是:对于步骤类型,选择Spark应用。

回答 1 投票 0

topic

通过mapPartitions类型的方法。

回答 1 投票 0

start_date

我有一个 pyspark 数据框架,其中包含两列,我想从这两列中创建一个时间戳。

回答 1 投票 1

不能用Java JDBC从AWS EMR上的Presto连接查询。

如果我ssh到presto emr集群的主节点上,我可以运行查询。然而,我希望能够在连接到emr集群的本地机器上从java源代码运行查询。I ...

回答 1 投票 1


使用DynamoDBMapper加密EMR中的数据时出现IllegalAccessError。

我按照这个文档:https:/docs.aws.amzon.comdynamodb-encryption-clientlatestdevguidejava-examples.html和设置加密客户端和映射器来加密一个项目并批量保存到Table ...

回答 1 投票 0

aws EMR 5.23.0版本是否支持python 3.7.x版本?

目前,我们使用EMR 5.23.0版本来提交pyspark作业,我们想把python版本升级到3.7,想了解一下目前EMR 5.23.0版本是否支持python 3.7。我们想把python版本升级到3.7,想检查一下当前EMR 5.23.0版本是否支持python 3.7。没有...

回答 1 投票 0

用spark读取多个json模式。

软件配置:Hadoop发行版:Amazon 2.8.3 应用:Hive 2.3.2,Pig 0.17.0,Hue 4.1.0 Hadoop distribution:Amazon 2.8.3 Applications:Hive 2.3.2, Pig 0.17.0, Hue 4.1.0, Spark 2.3.0 Tried to read with multiple json schema, val df = spark.read.option("...")

回答 1 投票 3

AWS EMR Bootstrap动作调用附加文件。

我想在设置AWS EMR(6.0.0版本)时安装额外的Python库,我知道我可以通过创建一个名为bootstrap.sh的文件,并将这个文件上传到s3,然后设置一个......。

回答 1 投票 0

boto3会导致EMRFS元数据不一致吗?

我使用boto3 SDK在EMR集群中运行python脚本,该脚本已启用一致视图。我正在尝试调试一个异常,并显示错误信息Exception while invoking ...

回答 1 投票 0

AWS EMR:为S3 Bucket访问设置hadoop凭证提供者

我已经在AWS上建立了一个Spark EMR集群(Hadoop 2.8.5,Spark 2.4.4)。我有一个 s3 bucket url 和它的访问凭证。在设置集群并附加笔记本后,我能够读取...。

回答 1 投票 0

QueryableState Flink AWS EMR。

https:/ci.apache.orgprojectsflinkflink-docs-stabledevstreamstatequeryable_state.html#activating-queryable-state ...

回答 1 投票 0

在AWS EMR上用pyspark.ml训练模型时出现KeyError,数据来自s3 bucket。

我正在用 pyspark.ml 在 JupyterLab 笔记本中的 AWS EMR 上的一个 s3 bucket 的 .json 数据上训练一个机器学习模型。该 bucket 不是我的,但我认为访问工作正常,因为数据 ...

回答 1 投票 1

自动同步S3与Hive元存储。

我正在使用EMR与SparkHive来管理S3中的一些parquet文件。当使用spark脚本redactremove(由于GDPR)一些信息,EMRFS得到的同步。使用emrfs sync s3:/path我...。

回答 1 投票 0

java.io.IOException: 在使用Combiber的MapReduce中,Spill失败。

我使用HADOOP mapReduce。当运行项目时,没有本地聚合,即组合类,它运行没有问题。当我添加组合器类时,我得到这样的消息:java.lang.Exception: ...

回答 1 投票 0

Sqoop导入错误 "无法加载db驱动类 "与亚马逊EMR服务。

我已经创建了一个EMR集群,配置了hadoop、Sqoop和Spark。我正在尝试Sqoop导入,但得到错误 "无法加载db驱动类:com.mysql.jdbc.Driver"。我的问题是哪个...

回答 1 投票 1


© www.soinside.com 2019 - 2024. All rights reserved.