emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如何在Amazon EMR上添加连接器到presto

我已经安装了一个安装了Hive / Presto的小型EMR集群,我想在S3上查询文件并将它们导入到RDS上的Postgres。要在S3上运行查询并将结果保存在postgres的表中,我已经完成了...

回答 3 投票 3

你如何用JSON数据制作一个HIVE表?

我想用一些JSON数据(嵌套)创建一个Hive表并在其上运行查询?这甚至可能吗?我已经将JSON文件上传到S3并启动了一个EMR实例,但我不......

回答 6 投票 33

Amazon EMR - 如何设置步骤的超时

有没有办法为Amazon Aws EMR中的步骤设置超时?我正在EMR上运行一个批量Apache Spark作业,如果它在3小时内没有结束,我希望该作业停止超时。我不能 ...

回答 2 投票 8

在Amazon EMR中设置配置单元属性?

我正在尝试使用Amazon EMR运行Hive查询,并且我也试图让Apache Tez使用它,根据我的理解,需要将hive.execution.engine属性设置为tez ...

回答 2 投票 0

如何使用纯python / boto访问EMR主私有IP地址

我在这个网站和谷歌上搜索过但未能得到答案。我从EC2实例运行代码,该实例使用boto创建和管理EMR集群。我可以用这个......

回答 2 投票 1

Spark中的UDF工作非常慢

我在Spark中运行了一个UDF(在EMR上运行),用scala编写,使用uaparser库为scala(uap-scala)解析来自用户代理的设备。在小套装上工作时,它工作正常(5000行),但是...

回答 3 投票 0

AWS EMR群集中的磁盘空间问题

我们在AWS中配置了11个节点(1个主机+10个核心)EMR集群。我们为每个节点选择了100 GB的磁盘空间。配置群集时,EMR自动仅分配10GB到...

回答 3 投票 0

找到Spark的Scala安装

我正在使用EMR并且可以启动spark-shell,但我想运行Scala REPL。目前,当我在shell上键入scala命令时,它说:-bash:scala:command not found如何找到并运行Scala REPL给...

回答 1 投票 1

当我从EMR 5.7升级到EMR 5.8时,s3-dist-cp因OutOfMemoryException而失败

我一直在使用s3-dist-cp将压缩的JSON文件从S3移动到HDFS,作为更大工作的一部分。我开始使用EMR 5.4并通过大多数5.x进行升级,我目前使用EMR运行32个机器群集...

回答 1 投票 2

EMR Step命令运行程序hive-script

我正在尝试在EMR集群上运行S3上的hive脚本。通过SSH连接到EMR群集时,键入“hive -f s3:// ...”可以正常工作。但是,我希望这是自动完成的......

回答 1 投票 0

通过s3在Amazon EMR上的TezTask顶点失败

我在EMR上创建了Hive表,看起来像创建外部表tests3(transaction_id String,order_id String,user_id String,amount String,subscriber_number String,product_type String,...

回答 2 投票 0

气流 - EMR操作员中的任务实例

在Airflow中,我面临的问题是我需要将job_flow_id传递给我的一个emr-steps。我能够从操作员检索job_flow_id但是当我要创建步骤时......

回答 1 投票 6

使用s3-dist-cp合并镶木地板文件

只是想知道是否可以使用s3-dist-cp工具来合并镶木地板文件(snappy压缩)。我尝试使用“--groupBy”和“--targetSize”选项,它确实将小文件合并为更大的文件。 ...

回答 1 投票 2

Spark / scala中的SQL查询大小超过Integer.MAX_VALUE

我试图使用Spark在S3事件上创建一个简单的SQL查询。我正在加载~30GB的JSON文件,如下所示:val d2 = spark.read.json(“s3n:// myData / 2017/02/02 / 1234”); d2.persist(org.apache.spark ....

回答 1 投票 24

火花作业的外部依赖

我是大数据技术的新手。我必须在EMR上以集群模式运行spark工作。这个工作是用python编写的,它依赖于几个库和一些其他工具。我已经 ...

回答 2 投票 0

如何获取集群信息来调用REST API(来自驱动程序)?

我想使用Spark REST API获取指标并发布到云监视。但是RESR API就像:val url =“http:// :4040 / API / V1 /应用/ /阶段“如果我给...

回答 1 投票 1

使用boto3从S3运行Python脚本后创建EMR集群并终止

是否可以使用boto3创建一个emr集群并在s3中读取python脚本然后终止。我知道这可以通过创建集群然后手动将脚本从s3复制到...来完成。

回答 1 投票 0

将从AWS控制台手动调整正在运行的群集的大小,以及退役和调试

从AWS控制台手动调整正在运行的集群的大小会在内部使用调用和撤销过程吗?我们正在开发EMR集群,我们从aws控制台手动调整集群大小...

回答 1 投票 -2

在Amazon EMR中将JSON转换为Parquet

我需要实现以下目标,由于我对Spark缺乏经验,我很难想出一个完成它的方法:从存储在S3中的.json.gz文件中读取数据。每个文件......

回答 1 投票 3

internal.S3AbortableInputStream on hadoop fs -get s3 to EMR

当我进入EMR集群并执行以下命令时:hadoop fs -get s3:// path / to / my / files我收到以下错误,文件传输失败了。我用过这个......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.