amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

Pyspark中的组合数据帧

我有一个供应商在一个S3存储桶上给了我多个压缩数据文件,我需要将它们一起阅读以使用Pyspark进行分析。如何修改sc.textFile()命令?另外,如果我要加载10 ...

回答 1 投票 0

将数据从redshift直接复制到EMR群集-这是一个好习惯吗?

Amazon提供了非常详细的文档,用于将数据从EMR复制到Redshift(通过S3),但是似乎没有其他文档,这让我想知道它是否不错...

回答 1 投票 0

关于Spark分区的难题

我正在一个项目中,我必须使用boto3读取S3文件(每个压缩文件约3MB)。我有一个小的pyspark脚本,该脚本每小时运行一次以处理文件并生成2种类型的输出数据...

回答 1 投票 -1

EMR上的Spark批处理作业的优化

我们正在使用下面给出的集群配置在EMR集群上运行spark-job。资源:节点类型:核心-2个实例,分别为r4.8xlarge 32 vCore,244 GiB内存,仅EBS存储EBS ...

回答 1 投票 -1

EMR 5.28无法在s3上加载镶木地板文件

在EMR集群5.28.0上,从s3读取镶木文件失败,但存在以下异常,而在EMR 5.18.0上,同样可以正常工作。以下是EMR 5.28.0上的堆栈跟踪。我什至从spark-shell尝试过:...

回答 1 投票 2

AWS EMR Presto群集突然终止错误:由于竞价,作业流中的所有从属都终止了

我在使用AWS EMR PrestoDB时遇到麻烦。我启动了一个集群,其中主节点为协调器,核心节点为工作器。核心节点是竞价型实例。但是,主节点是按需的。 5点后...

回答 2 投票 0

将火花数据帧的两列分别处理时的顺序保证是什么?

我有3列日期dataframe jsonString1 jsonString2我想将json内的属性扩展成列。所以我做了这样的事情。 val json1 = spark.read.json(dataframe.select(col(“ ...

回答 1 投票 0

无法通过节点应用程序代理AWS EMR Jupyter-Notebook的套接字。无法加载内核

我们拥有要用于代理在AWS EMR上运行的jupyter Notebook的节点应用程序。我可以使用http-proxy-middleware代理来自节点应用程序的所有http请求。但是对于...

回答 1 投票 1

如何在EMR核心节点上启用python库以启动EMR spark应用步骤

我正在尝试使用非常简单的python脚本运行EMR(1个主节点和2个核心节点)步骤,我将其上传到s3以用于EMR spark应用程序步骤。该脚本读取S3中的data.txt文件,然后...

回答 1 投票 0

将数据从火花工作者返回给驱动程序的最佳方法

我们面临在单台计算机上运行大数据任务的性能问题。设计任务需要占用大量内存和计算资源,并且正在巨大的...上运行优化算法(分支和边界算法)...

回答 1 投票 0

EMR簇大小对于使用Spark从S3读取数据是否重要

设置:最新(5.29)AWS EMR,spark,1个主节点1个节点。步骤1.我已使用S3Select解析文件并收集所有文件密钥以从S3中提取。第2步。使用pyspark在循环中迭代键...

回答 1 投票 0

使用AWS EMR更新S3数据

我将实木复合地板文件放入S3存储桶中,并使用Athena对其进行查询。我想对数据进行行级更改,但我试图避免拉低千兆字节的镶木地板数据,进行修改,以及...

回答 1 投票 0


Spark Graphframes大型数据集和内存问题

我想在相对大的图上运行Pagerank 35亿个节点900亿个边缘。而且我一直在尝试使用不同的群集大小以使其运行。但是首先是代码:来自pyspark.sql ...

回答 1 投票 1

是否可以通过没有Lambda的AWS STEP FUNCTION对AWS EMR执行Step Concurrency?

这是我的场景,我正在尝试创建4个AWS EMR集群,其中将为每个集群分配2个作业,因此就像使用Step Function精心编排的4个集群和8个作业。我的流程...

回答 1 投票 0

EMR上的MapReduce无法联系RMProxy并在等待资源管理器时卡住?

我正在使用hadoop 2.7.3在EMR上运行mapreduce / hadoop。从AWS进行库存安装,并且该罐是使用maven shade插件构建的。等待ResourceManager时,它无限卡住,但是我已经...

回答 1 投票 0

使用纱线资源管理器的困惑

我正在尝试在Amazon AWS中运行一个简单的pyspark作业,它已配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。我看到一些示例代码为...

回答 1 投票 0

Spark / EMR是否可以从s3多线程读取数据

由于一些不幸的事件序列,我们最终在s3上存储了一个非常零散的数据集。表元数据存储在Glue上,数据用“ bucketBy”写入,并存储在...

回答 1 投票 1

S3中对木地板的索引和分区

是否可以在S3中对Parquet文件进行索引和分区,或者此功能仅在卷的File Storage类型上可用?我正在寻找一种方法,以提供研究人员访问相同的...

回答 1 投票 1

aws emr的黄昏引导操作仅部署到主节点而不是工作节点

我们已尝试使用Dask文档上此页面上的说明和指南:https://yarn.dask.org/en/latest/aws-emr.html在预配AWS EMR-时部署Dask-受管理的...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.