amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

Spark中同规格硬件上本地处理和集群处理有什么区别?

本地模式 vs 集群模式 我是一个刚刚使用EMR的新手。 我正在使用 AWS EMR。 有主节点、核心节点、任务节点。 为什么要使用多核/任务?我不能只用一个吗?难道是……

回答 1 投票 0

Delta Lake 表 PySpark/Glue 目录 EMR

使用 Spark 创建数据库,位置参数指向 s3 存储桶路径,创建数据帧并使用 saveAsTable 写入增量,数据库和表都显示在指向 s3 的粘合点中

回答 2 投票 0

如何处理 Apache Spark 中不断变化的 parquet 模式

我遇到了一个问题,我将 Parquet 数据作为 S3 中的每日块(以 s3://bucketName/prefix/YYYY/MM/DD/ 的形式),但无法从 AWS EMR Spark 中读取数据不同的日期因为...

回答 4 投票 0

Apache Spark 未按预期执行动态分配

我在 AWS EMR 集群中运行的 Spark 中有以下设置。根据这些设置,Spark 应该为我的作业分配最多 10 个执行程序。但即使没有,我也只看到分配了 2 个执行者

回答 1 投票 0

如何在 Amazon EMR 的 JupyterLab 中使用自定义 Python 版本作为新内核?

我使用的是 Amazon EMR 7.x,默认情况下具有 Python 3.9。 我添加了基于Python 3.11的自定义 https://github.com/aws-samples/aws-emr-utilities/blob/main/utilities/emr-ec2-custom-python3/README.md...

回答 1 投票 0

ModuleNotFoundError:与 EMR Serverless 一起使用时没有名为“pyspark.sql”的模块

当我尝试在 EMR 无服务器上运行作业时,出现以下错误 - ModuleNotFoundError:没有名为“pyspark.sql”的模块。请参阅用户指南了解如何使用 python 库...

回答 1 投票 0

如何在 AWS EMR 启动后添加 shell 脚本

目前,我使用的是临时集群,每当我的 shell 脚本在“add_step”中遇到故障时,它就会关闭。我已经启动了 EMR 来调试它,但不知道在哪里添加并且......

回答 1 投票 0

如何通过slack获取EMR失败的确切原因?

当我的 pyspark 代码/引导程序失败时,我需要收到松弛通知,并提供 EMR 失败的确切原因。 我正在使用airflow 2.0,并且我正在使用 on_failure_callback=task_fail_slack_alert

回答 1 投票 0

PySpark 并行写入镶木地板

我正在使用 6 个工作人员运行 PySpark 作业,在此工作期间,我的所有转换都被执行到多个工作人员中,但是当我尝试将输出保存为镶木地板文件时,我可以看到...

回答 1 投票 0

EMR - Spark 版本从 2.4.0 升级到 3.1.2 导致 AWS Open Search (Elasticsearch 6.7) 出现写入问题

我目前正在使用 EMR 发行版本 [emr.5.23.0],即 Spark 2.4.0 和 Spark Elastic Search Connector [elasticsearch-spark-30_2.12-7.12.0.jar] 将数据写入 AWS Open Search (弹性搜索...

回答 1 投票 0

我的执行器核心总数如何比 Spark 应用程序集群中的核心总数多?

我正在使用 AWS EMR 运行带有 1 个主节点实例 (m6g.xlarge) 和 1 个从节点实例 (m6g.2xlarge) 的 Spark。 m6g.2xlarge 有 8 个 vCpu,默认 cpu 核心。 我正在用下面的程序运行 Spark...

回答 1 投票 0

使用 Airflow 执行 EMR 步骤失败

我在本地环境中使用 Airflow,在使用以下代码块创建集群后在 EMR 中添加一个步骤。 def add_step(cluster_id,jar_file,step_args): print("集群 ID : {}".

回答 1 投票 0

如何使用 SSM 在 AWS EMR 中设置环境变量以供 pyspark 脚本使用

我正在使用 emr-6.12.0 并尝试设置存储在 bootstrap.sh 文件中的秘密管理器中的环境变量。 SECRET_NAME =“/myapp/dev/secrets” SECRETS_JSON=$(aws Secretsmanager 获取-

回答 1 投票 0

EMR 无服务器 NoClassDefFoundError:软件/amazon/awssdk/transfer/s3/progress/TransferListener

我有一个 Spark 应用程序,可以从 S3 读取镶木地板文件。我的管道非常简单,并且在我的本地集群上运行良好。 这是我阅读镶木地板的相关部分: 最终数据集&l...

回答 1 投票 0

如何按顺序填充数据框中的缺失值?

我在 PySpark 中有一个数据框,如下所示: 行_id、组_id 1, 1 2、空 3、空 4、空 5, 5 6、空 7、空 8, 8 9、空 10、空 11、...

回答 1 投票 0

EMR集群日志到cloudwatch

我们的 Apache-Flink 作业在 EMR 集群上运行,我们将日志生成到 EMR,因为日志的可用时间有限:如何将它们生成到 Cloudwatch?

回答 1 投票 0

无法在 EKS docker 镜像上的 EMR 上启动 Flink SQL 客户端

我正在 EKS 上使用 EMR 的 Flink docker 镜像 - public.ecr.aws/emr-on-eks/flink/emr-6.15.0-flink:latest。当我尝试启动 SQL 客户端时,我看到以下错误。 (我没有看到这个错误

回答 1 投票 0

将 Amazon SageMaker 终端节点集成到 Glue 或 EMR 上的批量 ETL 工作流程中

我们如何才能最好地通过 Glue、基于 EMR 的 Spark 作业配置上述 AWS Sagemaker ML 模型端点? 正如我们在 AWS 文档“此处”中看到的,端点名称为“线性学习器-2019-11-04-01...

回答 2 投票 0

DataFrame 中不能有调用集合操作的地图类型列

:org.apache.spark.sql.AnalysisException:在调用集合操作(相交、例外等)的DataFrame中不能有映射类型列,但列map_col的类型是map 我有一张蜂巢桌,...

回答 2 投票 0

如何在pyspark中读取大型zip文件

我在 s3 上确实有 n 个 .zip 文件,我想处理这些文件并从中提取一些数据。 zip 文件包含单个 json 文件。在Spark中我们可以读取.gz文件,但是我没有找到任何方法......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.