amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

从 dbt 配置文件连接到 Spark EMR thrift 服务器

我有一个用例,我正在使用 dbt-core(数据构建工具)和 dbt-spark 适配器连接到 EMR 集群。 该集群位于私有子网中,并接受使用我...

回答 0 投票 0

EMR 中基于 AWS Graviton 的 EC2 实例升级导致任务失败

我有一个在 EMR 中运行的 spark Scala 作业,我正在努力改进它。截至目前,它在 m5.8xlarge 上运行没有任何问题。我最近尝试升级到基于 Graviton 的 EC2 实例 m6g.8xlarge ...

回答 1 投票 0

运行 Hudi DeltaStreameron EMR 成功,但未同步到 AWS Glue 数据目录

当我在 EMR 上运行 Hudi DeltaStreamer 时,我看到 hudi 文件是在 S3 中创建的(例如,我在 S3 中看到一个 .hoodie/ 目录和预期的镶木地板文件。该命令类似于: 火花提交\ --conf

回答 1 投票 0

如何在 AWS EMR 上获取 spark 作业的标准输出

我可以使用以下命令在 AWS EMR 上提交一个 spark 任务。 如何获取 Spark 作业的标准输出? aws emr 添加步骤 --cluster-id ${CLUSTERID} \ --输出json\ --steps 类型=spark,名称=${

回答 0 投票 0

编排和 EMR

我想在 emr 集群中运行多个 spark 作业,这些作业相互之间有一定的依赖性,一旦一切完成,最后一个步骤应该触发一个 lambda,它将启动一个...

回答 0 投票 0

Spark Executor 挂在 ShuffleBlockFetcherIterator 远程获取上

我正在 Amazon EMR 环境中托管的 Spark 集群上运行一些 Sedona 地理空间查询。我的查询适用于某些输入数据集,但会挂在 Spark SQL 的“count()”方法上

回答 0 投票 0

如何在 AWS EMR serverless 上运行 Python 项目(包)?

我有一个包含多个模块、类和依赖文件(requirements.txt 文件)的 Python 项目。我想将它与所有依赖项一起打包到一个文件中,并将文件路径提供给 AWS EMR

回答 1 投票 0

无法从 aws emr studio 笔记本或控制台中读取 s3 文件

我们有一个 EMR Studio,它设置了 S3 默认存储桶和文件路径,即 s3://OurBucketName/Subdirectory/work,我们在其中创建了一个工作区,该工作区附加到运行中的 EC2 集群...

回答 0 投票 0

无法通过 JDBC 连接到 emr-6.9.0 上的 hiveserver2

尝试连接启用 SSL 的 EMR 集群时,我一直收到无效状态 21。主节点未在 10001 上侦听(连接被拒绝),端口 10000 似乎也不起作用。

回答 0 投票 0

Airflow 运行的 Spark EMR 实例的硬件要求

我正在为 Airflow 作业运行的 spark 任务请求 EMR 集群。我有以下带有 spark 任务选项的 Airflow DAG 部分: 火花选项=[... ('驱动程序内存', '2g'), ('执行核心', '...

回答 0 投票 0

在 EKS 上运行 spark-sql 作业 EMR

我想提交一个 spark-sql 作业以通过气流在 EKS 上的 EMR 上运行。我在 AWS 上发现了一个新发布的 sparkSQlJobDriver 和一个用例。 我尝试按如下方式在我的 dag 中实现它,但我得到了 **

回答 0 投票 0

使用 EMR 服务的 Python 和 Pyspark 代码可追溯性

需要将我们的 EMR 与 AWS 的一项服务集成用于一个用例,即“使用 EMR,python/pyspark 代码运行大约 10 亿个事务和处理......

回答 1 投票 0

Spark 迭代算法

我们有一个用例,在 Spark 作业中 我们遍历外部表的分区 加载该分区的数据(每个分区几乎相同的数据卷) 进行转换(自连接,无 udfs)...

回答 0 投票 0

AWS r4.16xlarge 集群中的核心数

我有一个 10 节点的 AWS r4.16xlarge 集群,在 spark UI 的执行器选项卡下,每次旋转集群时“核心”下的数字都不同,有时它显示 200,有些...

回答 0 投票 0

How to dump heap to s3 using HeapDumpOnOutOfMemoryError in spark?

我正在尝试使用将堆文件从 spark(EMR) 转储到 s3 存储桶 new SparkConf().set("spark.driver.extraJavaOptions", "-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=s3://my-bucket/

回答 1 投票 0

使用 pyspark 创建一个 50Giga 的随机整数镶木地板文件失败

我尝试使用不同大小的集群(AWS 上的 EMR),但由于 YARN 杀死所有节点,它总是失败: https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node...

回答 1 投票 0

外部库中的 AWS EMR ClassNotFoundException

当我尝试在 EMR 上运行我的 jar 时,我收到错误 ClassNotFoundException。 我注意到的是,此错误仅发生在外部库中,例如: 错误:java.lang.ClassNotFoundExc...

回答 0 投票 0

从 S3 到 DynamoDB 的 15 TB 数据摄取

我必须将 15 TB 的数据从 S3 提取到 DynamoDB。除了添加新列(插入日期)外,不需要任何转换。 S3 中的数据采用 parquet 格式,带有 snappy compre...

回答 1 投票 0

从 S3 到 DynamoDB 的 15 TB 数据摄取

我必须将 15 TB 的数据从 S3 提取到 DynamoDB。除了添加新列(插入日期)外,不需要任何转换。 S3 中的数据采用 parquet 格式,带有 snappy compre...

回答 0 投票 0

无法在 AWS EMR pyspark worker 上创建 boto3 客户端(botocore.exceptions.ProfileNotFound)

我已经设置了一个 AWS EMR 集群。我已将此脚本作为引导脚本包含在内: #!/bin/庆典 # 安装需要的库 sudo pip3 install pandas==1.3.5 awswrangler==2.19.0 boto3==1.26.72 什么...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.