amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

S3中对木地板的索引和分区

是否可以在S3中对Parquet文件进行索引和分区,或者此功能仅在卷的File Storage类型上可用?我正在寻找一种方法,以提供研究人员访问相同的...

回答 1 投票 1

aws emr的黄昏引导操作仅部署到主节点而不是工作节点

我们已尝试使用Dask文档上此页面上的说明和指南:https://yarn.dask.org/en/latest/aws-emr.html在预配AWS EMR-时部署Dask-受管理的...

回答 1 投票 0

如何使EMR步骤Crontab脚本不评估环境变量?

我有一个Shell脚本,可在AWS EMR上设置crontab。该外壳程序脚本是EMR步骤设置的一部分。但是,当执行时,它将直接评估日期,而不是按原样评估文本...

回答 1 投票 0

EMR笔记本计算机用于云形成的模板

我知道用于创建集群的AWS cloudformation EMR资源。但是,我找不到有关EMR笔记本的任何说明。是否有适用于EMR笔记本电脑或类似产品的cloudformation资源...

回答 1 投票 0

使用动态Hadoop conf在同一火花会话中访问两个s3帐户,拒绝访问(403)

这是我提出的问题的后续问题,这个问题更具体地说明如何通过动态更改hadoop配置使用相同的spark会话访问两个s3帐户。我...

回答 1 投票 0

AWS EMR Presto群集突然终止

我在使用AWS EMR PrestoDB时遇到麻烦。我启动了一个集群,其中主节点为协调器,核心节点为工作器。核心节点是竞价型实例。但是,主节点是按需的。 5点后...

回答 1 投票 0

在AWS EMR上使用pyspark

我对PySpark和AWS EMR都是陌生的。我得到了一个小项目,我需要每小时清理大量数据文件并基于它们构建聚合的数据集。这些数据文件是...

回答 1 投票 0

“ Parquet记录格式不正确,而列数不为0

在AWS EMR集群上,我尝试使用Pyspark将查询结果写入镶木地板,但遇到以下错误:引起原因:java.lang.RuntimeException:镶木地板记录格式错误:空字段为...

回答 1 投票 0

Spark-submit AWS EMR和安装了Anaconda的python库

我从一个单独的ec2实例中使用boto3启动一个EMR群集,并使用如下所示的引导脚本:#!/ bin / bash #################### ################################################ #...

回答 1 投票 0

通过livy批处理API从driverLogUrl读取spark stdout

Livy具有批处理日志端点:GET / batches / {batchId} / log,在如何使用AirFlow提取使用Apache Livy批处理POST方法提交的Spark作业客户端日志中指出,据我所知,这些...] >

回答 1 投票 1

如何将变量传递到AWS StepFunctions中的EMR addStep

AWS Stepfunctions最近添加了EMR集成,这很酷,但是我找不到将变量从step函数传递到addstep args的方法。例如,我想传递“ $ .dayid” ...

回答 1 投票 1

是否有一种方法可以将步函数输入值输入到EMR步骤Args中

我们正在使用AWS EMR集群运行批处理火花作业。这些作业会定期运行,我们希望通过AWS Step Functions进行整理。自2019年11月起,Step Functions已支持...

回答 1 投票 0

无法从AWS EMR中的Flink访问s3文件

我们在AWS EMR上拥有长期运行的Flink集群。它使用默认角色(EMR_EC2_DefaultRole)配置。我们尝试运行Flink作业,但是它无法访问s3存储桶以读取文件。我们有...

回答 2 投票 0

为什么我无法在EMR的Spark scala中打开本地文件

我在工作中使用AWS EMR。如果启动Spark Shell,则可以运行scala命令,但无法读取本地文件。例如:scala> val citi = spark.read.textFile(“ CitiGroup2006”)org.apache ....

回答 1 投票 0

什么是监视和显示异步作业(如EMR和AWS胶水)的结果的最佳方法,这需要20-30分钟才能执行

我的程序需要花很长时间才能执行。现在,我想在完成后在我的UI中显示此作业的状态。我发现了两个解决此问题的方法:进行api调用...

回答 1 投票 -1

通过步骤功能在EMR群集配置中设置子网ID和EC2密钥名称

截至2019年11月,AWS Step Function对编排EMR群集具有本机支持。因此,我们正在尝试配置集群并在其上运行一些作业。我们找不到有关...

回答 1 投票 0

如何优化Spark以将大量数据写入S3

我在EMR上使用Apache Spark进行了大量的ETL。我对获得良好性能所需的大多数调优相当满意,但我有一份似乎无法弄清的工作。基本上,...

回答 1 投票 0

ORC文件转储中的条带大小是否以压缩大小格式表示?

[我们已快速生成了压缩的ORC文件。我只是想了解ORC文件转储日志,并且我知道默认情况下ORC的条带大小为64MB。但是,我看到...

回答 1 投票 0

AWS EMR Notebook上使用sagemaker_pyspark中的XGBoostSageMakerEstimator运行时错误

我正在尝试将SageMaker Python SDK与EMR(Jupyter)笔记本电脑上的PySpark结合使用。尝试如下所示使用XGBoostSageMakerEstimator时,从sagemaker_pyspark.algorithms导入...

回答 1 投票 0

在Amazon EMR上运行Spark 2.4.3的网络依赖问题

我正在尝试在Amazon EMR上运行一个简单的Spark SQL应用程序。 Spark的版本是2.4.3和EMR 5.26.0。尝试创建...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.