amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

S3中对木地板的索引和分区

是否可以在S3中对Parquet文件进行索引和分区，或者此功能仅在卷的File Storage类型上可用？我正在寻找一种方法，以提供研究人员访问相同的...

amazon-s3 indexing amazon-emr parquet delta-lake

回答 1 投票 1

aws emr的黄昏引导操作仅部署到主节点而不是工作节点

我们已尝试使用Dask文档上此页面上的说明和指南：https://yarn.dask.org/en/latest/aws-emr.html在预配AWS EMR-时部署Dask-受管理的...

yarn dask amazon-emr

回答 1 投票 0

如何使EMR步骤Crontab脚本不评估环境变量？

我有一个Shell脚本，可在AWS EMR上设置crontab。该外壳程序脚本是EMR步骤设置的一部分。但是，当执行时，它将直接评估日期，而不是按原样评估文本...

python cron environment-variables amazon-emr

回答 1 投票 0

EMR笔记本计算机用于云形成的模板

我知道用于创建集群的AWS cloudformation EMR资源。但是，我找不到有关EMR笔记本的任何说明。是否有适用于EMR笔记本电脑或类似产品的cloudformation资源...

amazon-web-services amazon-cloudformation amazon-emr

回答 1 投票 0

使用动态Hadoop conf在同一火花会话中访问两个s3帐户，拒绝访问（403）

这是我提出的问题的后续问题，这个问题更具体地说明如何通过动态更改hadoop配置使用相同的spark会话访问两个s3帐户。我...

apache-spark pyspark amazon-emr hadoop2

回答 1 投票 0

AWS EMR Presto群集突然终止

我在使用AWS EMR PrestoDB时遇到麻烦。我启动了一个集群，其中主节点为协调器，核心节点为工作器。核心节点是竞价型实例。但是，主节点是按需的。 5点后...

amazon-emr presto

回答 1 投票 0

在AWS EMR上使用pyspark

我对PySpark和AWS EMR都是陌生的。我得到了一个小项目，我需要每小时清理大量数据文件并基于它们构建聚合的数据集。这些数据文件是...

amazon-s3 pyspark amazon-emr

回答 1 投票 0

“ Parquet记录格式不正确，而列数不为0

在AWS EMR集群上，我尝试使用Pyspark将查询结果写入镶木地板，但遇到以下错误：引起原因：java.lang.RuntimeException：镶木地板记录格式错误：空字段为...

hive pyspark amazon-emr parquet

回答 1 投票 0

Spark-submit AWS EMR和安装了Anaconda的python库

我从一个单独的ec2实例中使用boto3启动一个EMR群集，并使用如下所示的引导脚本：＃！/ bin / bash #################### ################################################ ＃...

pyspark boto3 amazon-emr spark-submit

回答 1 投票 0

通过livy批处理API从driverLogUrl读取spark stdout

Livy具有批处理日志端点：GET / batches / {batchId} / log，在如何使用AirFlow提取使用Apache Livy批处理POST方法提交的Spark作业客户端日志中指出，据我所知，这些...] >

apache-spark pyspark amazon-emr livy

回答 1 投票 1

如何将变量传递到AWS StepFunctions中的EMR addStep

AWS Stepfunctions最近添加了EMR集成，这很酷，但是我找不到将变量从step函数传递到addstep args的方法。例如，我想传递“ $ .dayid” ...

amazon-emr aws-step-functions

回答 1 投票 1

是否有一种方法可以将步函数输入值输入到EMR步骤Args中

我们正在使用AWS EMR集群运行批处理火花作业。这些作业会定期运行，我们希望通过AWS Step Functions进行整理。自2019年11月起，Step Functions已支持...

amazon-emr aws-step-functions

回答 1 投票 0

无法从AWS EMR中的Flink访问s3文件

我们在AWS EMR上拥有长期运行的Flink集群。它使用默认角色（EMR_EC2_DefaultRole）配置。我们尝试运行Flink作业，但是它无法访问s3存储桶以读取文件。我们有...

amazon-s3 apache-flink amazon-emr

回答 2 投票 0

为什么我无法在EMR的Spark scala中打开本地文件

我在工作中使用AWS EMR。如果启动Spark Shell，则可以运行scala命令，但无法读取本地文件。例如：scala> val citi = spark.read.textFile（“ CitiGroup2006”）org.apache ....

scala amazon-web-services apache-spark amazon-emr

回答 1 投票 0

什么是监视和显示异步作业（如EMR和AWS胶水）的结果的最佳方法，这需要20-30分钟才能执行

我的程序需要花很长时间才能执行。现在，我想在完成后在我的UI中显示此作业的状态。我发现了两个解决此问题的方法：进行api调用...

amazon-web-services bigdata amazon-emr aws-glue

回答 1 投票 -1

通过步骤功能在EMR群集配置中设置子网ID和EC2密钥名称

截至2019年11月，AWS Step Function对编排EMR群集具有本机支持。因此，我们正在尝试配置集群并在其上运行一些作业。我们找不到有关...

amazon-emr aws-step-functions

回答 1 投票 0

如何优化Spark以将大量数据写入S3

我在EMR上使用Apache Spark进行了大量的ETL。我对获得良好性能所需的大多数调优相当满意，但我有一份似乎无法弄清的工作。基本上，...

scala apache-spark amazon-s3 amazon-emr

回答 1 投票 0

ORC文件转储中的条带大小是否以压缩大小格式表示？

[我们已快速生成了压缩的ORC文件。我只是想了解ORC文件转储日志，并且我知道默认情况下ORC的条带大小为64MB。但是，我看到...

hadoop amazon-s3 hive amazon-emr orc

回答 1 投票 0

AWS EMR Notebook上使用sagemaker_pyspark中的XGBoostSageMakerEstimator运行时错误

我正在尝试将SageMaker Python SDK与EMR（Jupyter）笔记本电脑上的PySpark结合使用。尝试如下所示使用XGBoostSageMakerEstimator时，从sagemaker_pyspark.algorithms导入...

python apache-spark pyspark amazon-emr amazon-sagemaker

回答 1 投票 0

在Amazon EMR上运行Spark 2.4.3的网络依赖问题

我正在尝试在Amazon EMR上运行一个简单的Spark SQL应用程序。 Spark的版本是2.4.3和EMR 5.26.0。尝试创建...

scala apache-spark apache-spark-sql amazon-emr

回答 1 投票 1

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.