amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

在AWS EMR Jupyter Notebook中,如何将用户从livy更改为hadoop

我创建了一个AWS EMR集群,并上传了sparkify_log_small.json并使用下面的代码创建了一个EMR Jupyter Notebook,该代码认为它可以从用户(hadoop)主目录读取。 sparkify_log_data = ...

回答 1 投票 0

我在AWS中已有一个EMR集群。我想从气流到aws现有群集运行dag

我有一台气流机器,其版本为apache-airflow == 1.10.5。我知道如何运行自动创建集群的dag并运行该步骤并终止集群。在...

回答 1 投票 0

使用RunJobFlowResult创建AWS Emr群集无法采用指定的配置?

我正在使用AWS Java SDK创建Aws Emr集群。下面是代码片段。 JobFlowInstancesConfig jobFlowInstanceConfig = new JobFlowInstancesConfig().withEc2SubnetId(config ....

回答 1 投票 0

如何通过气流为EMR选择自定义AMI

我正在通过Airflow分解EMR集群,并在其上运行PySpark作业。我想使用自定义AMI通过Airflow引导群集。我遵循在线文档中的boto3语法,但是...

回答 1 投票 1

[EMR 5.27上的pyspark spark 2.4-列出文件后集群停止处理

给出了一个应用程序,几乎不进行任何转换即可将csv转换为实木复合地板(从和转换为S3):对于表中的表:df_table = spark.read.format('csv')\ .option(“ header”,“ true”)\。 ..

回答 2 投票 2

SparkSession应用程序源代码配置属性,不覆盖AWS EMR默认值上的JupyterHub和Zeppelin

我具有Spark Driver设置,可以使用Zeppelin和或JupyterHub作为客户端来在AWS EMR上进行交互式Spark编程。但是,当我使用自定义配置属性(应用程序...

回答 1 投票 0

拒绝访问-EMR Presto-基于文件的授权

从Presto(AWS EMR)查询时,我遇到一个奇怪的问题。我使用的是Presto 0.194,一切正常,升级到0.224后,我无法运行查询。我正在使用LDAP身份验证进行...

回答 1 投票 1

AWS EMR上的火花:java.lang.NoSuchMethodError:scala.Product。$ init $(Lscala / Product;)V

我正在尝试将Scala 2.12.0 + Spark 2.4.4应用程序部署到AWS EMR。我在EMR中启用了Spark 2.4.4。当应用程序运行时,它将失败并显示以下错误:java.lang.NoSuchMethodError:...

回答 1 投票 1

如何将所有JSON结构上移/将所有JSON结构转换为pyspark中的字符串?

我需要在每个文件中完全平整许多(10TB +)json的所有列。我的结构总是按照以下规则重复:键可以是1-N我有三个子键:单独的s,单独的n,s和n都...

回答 1 投票 0

凤凰表上的配置单元查询抛出ColumnNotFoundException

我使用hbase和hive(hive-server2)运行EMR集群。我的ETL管道使用数据创建并填充Phoenix表。如果不存在则创建表UNMAPPED_FACTS(ACCOUNT VARCHAR NOT NULL,...

回答 1 投票 1

安装核心服务(Spark等)后,是否有办法设置引导操作以在EMR上运行?

安装核心服务(Spark等)后,是否可以设置引导操作以在EMR上运行?我正在使用emr-5.27.0。

回答 1 投票 0

Spark任务挂在[GC(分配失败)]

我正在AWS EMR 5.8.0上运行Spark 2.2,Scala 2.11,我试图在拒绝完成的数据集上运行计数操作。令人沮丧的是,它仅挂在一个特定的文件上。我...

回答 1 投票 0

如何使用“ WARN HadoopFileSystemOwner停止Hadoop垃圾邮件日志:未找到myname的组信息(auth:SIMPLE)”

我正在AWS EMR的纱线上运行spark应用程序,并且因以下错误的MB垃圾邮件:19/09/30 17:09:29 WARN HadoopFileSystemOwner:使用以下名称未找到myname(auth:SIMPLE)的组信息...

回答 1 投票 0


Elastic Search是否支持多个索引之间的聚合查询?好的做法吗?

我有一个基于时间的(类似日志的)数据用例。如果我使用滚动索引并每天创建单独的索引,那么我的查询将跨越多个索引。这很好吗?

回答 1 投票 0

如何从群集获取内存使用率和Cpu利用率

我们正在使用AWS EMR运行Spark作业。从神经节来看,与分配的内存相比,群集的内存利用率较低。 CPU利用率也是如此。我们...

回答 1 投票 0

在AWS EMR中连接到Google NGrams数据

我正在尝试连接到EMR中AWS上的Google NGrams数据集。 (https://aws.amazon.com/datasets/google-books-ngrams/)但是,当我尝试使用Pig加载数据时,会收到很多错误消息...

回答 1 投票 0


我如何创建代理以在AWS Glue的Spark UI上查看作业?

我正在AWS Glue上运行Spark作业,我看到了YARN Web UI的URL(跟踪URL)。我不清楚如何创建代理来查看该跟踪站点,我希望使用该代理来找到我的跟踪站点...

回答 1 投票 9

会话在AWS EMR集群中不是活动的Pyspark

我已经打开了一个AWS EMR集群,并在pyspark3 jupyter笔记本中运行以下代码:“ .. textRdd = sparkDF.select(textColName).rdd.flatMap(lambda x:x)textRdd.collect()。show()。 。“我收到此错误:...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.