amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

使用CLI获取aws EMR DNS地址

我正在尝试设置一些简单的代码,以便在我不得不做一些我不得不做的临时工作时不时地启动EMR。现在我传递'aws emr create-cluster'命令然后找到DNS ...

回答 1 投票 1

如何使用boto启动和配置EMR集群

我正在尝试启动集群并使用boto运行所有作业。我找到了许多创建job_flows的例子。但我不能为我的生活,找到一个例子,显示:如何定义集群...

回答 3 投票 15

Spark-submit in EMR ClassNotFoundException java

我有一个jar包捆绑创建一个弹簧启动应用程序,其中我创建火花会话来做一些操作。然后我将此jar发送到AWS EMR,并作为spark-submit或java -jar运行...

回答 1 投票 1

EMR上的Spark工作突然耗时30小时(从5小时起)

我对Spark来说比较新。我有一个Spark作业,它运行在1个主服务器和8个核心的Amazon EMR集群上。简而言之,Spark作业从S3读取一些.csv文件,将它们转换为RDD,......

回答 1 投票 0

有没有办法在boto3中使用群集名称检查emr群集状态?

在下面的代码中,它可以使用EMR id检查EMR状态:import boto3 client = boto3.client('emr')response = emrClient.describe_cluster(ClusterId ='j-XXXXXXXX')我发现没有api ... 。

回答 1 投票 0

如何通过Spark SQL连接BigQuery?

我有一个简单的python代码,其中包括使用具有我的凭据的JSON文件连接bigQuery。 data = pd.read_gbq(SampleQuery,project_id ='XXXXXXXX',private_key ='filename.json')这里......

回答 1 投票 1

如何在java代码中使用S3DistCp

我想以编程方式将作业的输出从EMR集群复制到Amazon S3。如何在java代码中使用S3DistCp来做同样的事情。

回答 1 投票 3

如何在DynamoDB中为数据构建适当的分析仪表板?

我有一组Dynamo数据库表。我想设计一个适当的解决方案来为这些表中的数据构建动态实时(或接近实时)的仪表板。例如,如果我有表“用户”和...

回答 4 投票 3

无法在EMR spark群集中运行python作业

我正在尝试向AWS EMR spark集群提交python作业。我在spark-submit选项部分的设置如下: - master yarn --driver-memory 4g --executor-memory 2g但是,我......

回答 1 投票 0

如何从另一个AWS账户访问公共S3存储桶

在其中一篇博客文章中,作者提到他将数据集上传到s3存储桶并提供了公共访问权限。 s3://us-east-1.elasticmapreduce.samples/flightdata/input现在我想下载/ ...

回答 1 投票 0

.jfindClass中的R错误(as.character(driverClass)[1]):java.lang.ClassNotFoundException

尝试在macOS上设置与JDBC EMR配置实例的R JDBC连接。获取错误:.jfindClass中的错误(as.character(driverClass)[1]):java.lang.ClassNotFoundException这就是我...

回答 1 投票 0

从S3到DynamoDB加载镶木地板文件

我一直在寻找加载(基本上是空的和恢复)Parquet文件从S3到DynamoDB的选项。 Parquet文件本身是通过在EMR集群上运行的spark作业创建的。这里有几件事要......

回答 1 投票 0

如何在AWS EMR中启动辅助Namenode

我们一直在运行生产等级系统,我们希望自动在AWS EMR中启动辅助名称节点。下面是辅助namenode守护程序未运行的jps的输出[root @ ...

回答 1 投票 2

为什么我们在presto查询运行时看到峰值?

我们正在尝试调试为什么我们的presto查询运行时间在一天中变化很大。我们看到几个重要的峰值,一些在工作时间,一些在工作时间之外。我们正在使用EMR ......

回答 1 投票 0

从EMR写入DSE图

我们正在尝试编写来从EMR写入DSE图(cassandra)并继续获取这些错误。我的JAR是一个带有byos依赖关系的阴影jar。任何帮助,将不胜感激。 java.lang中....

回答 2 投票 0

aws emr zeppelin没有jdbc解释器

我用hadoop,spark和zeppelin创建了一个aws emr集群。在文档https://zeppelin.apache.org/docs/0.8.0/interpreter/jdbc.html之后,其中填写解释器名称字段...

回答 1 投票 0

在EMR集群上运行Spark作业时出现异常“java.io.IOException:所有数据节点都很糟糕”

我们使用AWS EMR设置来处理用Scala编写的作业。我们能够在小数据集上运行作业,但是在大型数据集上运行相同的作业时,我得到异常“java.io.IOException:All ...

回答 1 投票 0

如何在齐柏林飞艇上添加一个罐子?

如何在Zeppelin中为%hive解释器添加一个jar?我试过%z.dep('');加罐子 此外,zeppelin hive解释器抛出ClassNotFoundException添加到./interpreter/hive/ ...

回答 4 投票 6

亚马逊EC2与亚马逊EMR [已结束]

我在Hive中实现了一项任务。目前它在我的单节点集群上工作正常。现在我打算在AWS上部署它。我对AWS一无所知。如果我计划部署它那么......

回答 3 投票 17

使用.ppk键从java连接到presto并运行一个简单的查询

我一直在尝试从java代码连接到我的EMR集群来运行presto查询。到目前为止,我创建了一个“maven项目”,并在“pom.xml”中添加了“presto dependancy”。我一直在指这个......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.