amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

对于Hive MAPJOIN作业,有多少数据被认为“太大”?

编辑:添加了更多文件大小的详细信息,以及一些其他会话信息。我有一个看似简单的Hive JOIN查询,令人惊讶地需要几个小时才能运行。选择a.value1,a.value2,...

回答 1 投票 0

你如何用JSON数据制作一个HIVE表?

我想用一些JSON数据(嵌套)创建一个Hive表并在其上运行查询?这甚至可能吗?我已经将JSON文件上传到S3并启动了一个EMR实例,但我不......

回答 6 投票 33

EMR 5.21,Spark 2.4 - Json4s依赖性被破坏

问题在EMR 5.21中,Spark - Hbase集成被破坏。 df.write.options()。format()。save()失败。原因是json4s-jackson版本3.5.3 in spark 2.4,EMR 5.21它在EMR 5.11.2中工作正常,Spark ......

回答 1 投票 0

运行emrfs delete时出错 - 元数据“EmrFSMetadata”不存在

如题。我们有stage / prod emr集群,我们可能需要通过jenkins作业在两个集群上运行emrfs delete s3_path命令。但是,我可以在舞台emr one上成功运行emrfs delete,...

回答 1 投票 0

Amazon EMR - 如何设置步骤的超时

有没有办法为Amazon Aws EMR中的步骤设置超时?我正在EMR上运行一个批量Apache Spark作业,如果它在3小时内没有结束,我希望该作业停止超时。我不能 ...

回答 2 投票 8

AWS EMR火花提交选项 - 失败

我试图在EMR火花集群上运行python作业。在spark submit-options中我只使用以下设置来改变内存: - master yarn --driver-memory 4g --executor-memory 2g ...

回答 1 投票 1

使用Spark从同一区域的多个s3桶中读取

我正在尝试从多个s3存储桶中读取文件。最初桶应该在不同的区域,但看起来这是不可能的。所以现在我把另一个桶复制到同一个......

回答 1 投票 0

GeoSpark Zeppelin氦气插件

我正在尝试启用geospark-zeppelin氦插件,但无法看到此链接中所述的geospark-zeppelin按钮。我使用AWS EMR集群中提供的Zeppelin(0.8.0)。这是 ...

回答 1 投票 0

TEZ映射器资源请求

我们最近从MapReduce迁移到TEZ,以便在EMR上执行Hive查询。我们正在看到确切的配置单元查询启动非常不同数量的映射器的情况。见下面的地图3阶段。上 ...

回答 1 投票 0

从AWS EMR检查AWS S3中是否存在文件夹的正确方法?

在称之为重复之前,请阅读我的问题。我找到了两种方法来检查来自EMR的S3中是否存在文件夹,但我想知道哪一个是正确的。获取EMR的凭证(...

回答 1 投票 0

通过私有子网访问跨区域s3端点

我有一个在eu-west-1私有子网中旋转的EMR。我在路由表中为S3定义了一个网关端点。我必须访问AWS公开的这个公共桶/位置:s3:// us-east-1 ....

回答 1 投票 0

为什么我不能在AWS Elastic Map Reduce中更改“spark.driver.memory”值?

我想在AWS EMR上调整我的spark集群,我无法更改spark.driver.memory的默认值,因为我的数据集很大,导致每个spark应用程序崩溃。我试过编辑火花-...

回答 1 投票 0

错误的FS加载json与来自s3的火花

我正在尝试使用spark和magellan库加载geojson文件我的加载代码是:val polygons = spark.read.format(“magellan”)。option(“type”,“geojson”)。load(inJson)where inJson是我的道路......

回答 2 投票 0

如何知道亚马逊emr集群上的mapred-site值?

我遇到了内存问题,因此我在Amazon文档中查找了参数的默认值,如:mapreduce.map.memory.mb mapreduce.reduce.memory.mb mapreduce.map.java.opts ...

回答 1 投票 0

hadoop将结果从hdfs复制到S3

我已成功完成我在Amazon EMR上的工作,现在我想将结果从HDFS复制到S3,但我有一些问题,这是代码(--steps){“Name”:“AAAAA”,“Type”:“ CUSTOM_JAR“,”......

回答 1 投票 0

使用带有--py文件的.zip文件(使用zipfile包在python中创建)导入模块时出现问题

我试图在我的测试文件中存档我的应 用程序以激发EMR集群上的提交,如下所示:模块的文件夹结构:app --- module1 ------ test.py ------ test2.py - - module2 ------ ......

回答 1 投票 0

如何使用EMR上的spark有效地读取/解析s3文件夹中.gz文件的负载

我正在尝试通过在EMR上执行的spark应用程序读取s3上目录中的所有文件。数据以典型格式存储,如“s3a://Some/path/yyyy/mm/dd/hh/blah.gz”如果我使用深度嵌套...

回答 1 投票 1

EMR上的自定义数据源插件抛出java.lang.NoClassDefFoundError:scalaj / http / Http

我正在使用位于此处的自定义数据源https://github.com/sourav-mazumder/Data-Science-Extensions/releases当我使用Dockerized Spark环境本地使用它时,它按预期工作....

回答 1 投票 1

如何更改Apache Zeppelin UI外观并对元素进行编辑

我目前正在AWS EMR机器上运行Apache Zeppelin 0.7.2。有没有办法用任何其他文字和图像替换顶部的zeppelin徽标和文字?我试图使用Inspect ...

回答 1 投票 0

如何配置spark以便在S3中创建“_ $ folder $”条目?

当我使用df.write .format(“parquet”).mode(“overwrite”).partitionBy(“year”,“month”,“day”,“hour”,“gen”,“client”)将我的数据帧写入S3时“)。选项(”压缩“,”gzip“).save(”s3:/ ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.