amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。


我们可以将AWS Glue视为EMR的替代品吗?

只是一个简单的问题,从Masters澄清,因为AWS Glue作为ETL工具,可以通过避免过度配置为公司提供诸如最小或无服务器维护,节省成本等好处......

回答 3 投票 3

Hive:执行错误选择并同时删除分区配置单元查询

我在同时运行两个查询时遇到错误。这是场景。我正在使用AWS EMR,下面是我的hive表架构。 CREATE TABLE India(OFFICE_NAME STRING,OFFICE_STATUS ......

回答 1 投票 1

来自EMR / Spark的S3写入速度非常慢

我正在写,看看是否有人知道如何加速从EMR中运行的Spark的S3写入时间?我的Spark Job需要4个多小时才能完成,但是群集只在第一个1.5 ...

回答 6 投票 21

纱线容器,火花执行器和EMR中可用节点之间的关系是什么?

假设我有一个拥有1个主节点,3个核心节点和5个任务节点的集群。如果我在YARN集群模式下运行spark作业,驱动程序将在主节点上运行(主节点也可以运行执行程序吗?),并且......

回答 1 投票 0

使用Pyspark读取S3上随机的文件样本

我在S3上有一个包含1000个文件的存储桶。每个约1GB。我想阅读这些文件的随机样本。让我们说5%的文件。这是我怎么做的fileDF = sqlContext.jsonRDD(self.sc ....

回答 1 投票 6

AWS现场定价如何运作?

我目前在使用现场实例时尝试了解AWS定价系统。假设当前价格是1美元而我的“最高出价”是2美元,我将支付什么?可以在...之上出价

回答 1 投票 0

AWS EMR - Hive在S3中创建新表会导致AmazonS3Exception:Bad Request

我有一个Hive脚本我在EMR中运行,它在S3中创建了一个分区的Parquet表,它还存储在S3中的~40GB gzip压缩文件中。该脚本运行良好约4小时但达到了一个点......

回答 1 投票 0

亚马逊EMR火花上的蜂巢

我在hive上尝试了以下命令:set hive.execution.engine = spark;但是在我在amazon EMR上设置执行引擎后运行任何查询时出现错误:线程“main”中的异常java.lang ....

回答 2 投票 2

AWS EMR性能HDFS与S3

在大数据中,代码被推向数据以供执行。这是有道理的,因为数据很大并且执行代码相对较小。来到AWS EMR,数据可以是HDFS或......

回答 3 投票 5

如何在YARN上启动Spark应用程序之前等待所有执行程序分配?

我们在纱线集群上运行火花作业,发现即使没有足够的资源,火花作业也会启动。举一个极端的例子,一个火花作业要求1000个执行器(4个核心和...

回答 1 投票 4
热门问答
推荐问答