amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

用于使用 imdsv2 创建 emr 集群的 Cloudformation 模板

我有两个cloudformation模板: (1) - 用于使用 imdsv2 创建 ec2 实例 (2) - 用于创建 emr 集群 (imdsv1)。 我正在寻找更新 emr 集群的模板,所以...

回答 1 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里,我尝试模拟 Hudi 数据集的更新和删除,并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。 尝试使用

回答 1 投票 0

使用 AWS Lambda Python 获取 EMR 集群的标签列表

是否有任何函数可以获取 emr 集群(如 S3 存储桶)的标签列表?就像在 S3 存储桶中一样,我们有 get_bucket_tagging 我尝试使用 get_list 但它不起作用。如果有的话请告诉我...

回答 1 投票 0

df.show 返回 java.lang.ClassNotFoundException:org.postgresql.Driver

请仔细阅读,本文并非重复。 我正在尝试通过 AWS 上的 EMR 访问 RDS 数据库。我在齐柏林飞艇上这样做了: 从 pyspark.sql 导入 SparkSession 火花 = SparkSession \ ...

回答 4 投票 0

Trino 冰山连接器“未实现 GlueHiveMetastore 的 getTablesWithParameter”

我在 EMR 版本 6.5 上运行 trino,并且我已经为 trino 添加了 Iceberg 连接器,我希望它使用胶水目录。这些是iceberg.properties下的配置 连接器.name=

回答 1 投票 0

尝试从 EMR 7.0.0 集群写入 S3 时出现 400 错误请求错误

我有一个使用 emr-5.29.0 和 Spark 2.4.4 完美运行的 Spark 应用程序。这个应用程序使用 Spark SQL 写入 S3,如下所示 df .repartition($"年", $"月", $"日&

回答 1 投票 0

确保在 EMR 上的 PySpark 中批量处理下载时遵守文件大小限制

我正在开发一个在 Amazon EMR 上运行的 PySpark 应用程序,其中我的任务涉及根据 DataFrame 中的 URL 下载文件。目标是在 EMR 执行程序上持续下载这些文件...

回答 1 投票 0

使用 AWS EMR 连接到 MongoDB 时出现 TLS 错误

我正在使用 keytool 通过引导程序将证书添加到集群 keytool -import -file impl-stable.crt -alias impl-stable.crt -keystore /usr/lib/jvm/java/jre/lib/security/cacerts -storepass

回答 1 投票 0

如何检查 Spark ui 是否最近运行的应用程序

我正在运行以下脚本以在 emr 的主节点上进行测试 我有一个名为spark_test.py的文件,如下所示 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder.mas...

回答 1 投票 0

当将 Iceberg 与 EMR 7.0.0 和 s3 一起使用时,我收到 awssdk SdkClientException: 等待来自池的连接超时

我最近将 EMR 切换到标签 7.0.0。我的部分工作量是使用 pyspark 对大型 Iceberg 表进行一些更新。我将所有 s3 路径移至 s3 架构,而不是此处建议的 s3a。

回答 1 投票 0

我应该在 EMR 上使用 AWS Glue 或 Spark 将二进制数据处理为 parquet 格式吗

我的工作要求是从传感器读取二进制数据并为 Analytics 生成镶木地板输出结果。 对于存储,我选择了 s3 和 Dynamodb。 对于处理引擎,我很困惑...

回答 2 投票 0

使用 EMR 从 1 个 zip 文件中解压多个文件

我有多个名为 f1.zip、f2.zip、...f7.zip 的 zip 文件,每个文件包含大约 200k xml 文件,我使用此代码进行多进程并行解压缩它们,但即使每个文件都非常小...

回答 1 投票 0

并行化从 lambda 函数启动的瞬态 AWS EMR 中的步骤的最佳实践是什么?

假设在 S3 存储桶中接收文件时调用 lambda 函数。 此 lambda 函数负责处理此文件以及在瞬态 AWS EMR 中提交的一些 Spark 作业。 ...

回答 1 投票 0

无法识别的选项--conf

我在客户端部署模式下使用spark-submit 触发EMR 中的spark 作业。这是我的火花提交命令: Spark-submit --deploy-mode 客户端 \ --num-executors 3 \ --执行...

回答 1 投票 0

AWS EMR 集群中元数据的 AWS 粘合数据目录

我们计划使用AWS EMR集群来处理json和parquet文件。我有一个基本问题,我们真的需要 aws 数据目录来处理存储在 S3 中的 json 和 parquet 文件...

回答 1 投票 0

Spark中同规格硬件上本地处理和集群处理有什么区别?

本地模式 vs 集群模式 我是一个刚刚使用EMR的新手。 我正在使用 AWS EMR。 有主节点、核心节点、任务节点。 为什么要使用多核/任务?我不能只用一个吗?难道是……

回答 1 投票 0

Delta Lake 表 PySpark/Glue 目录 EMR

使用 Spark 创建数据库,位置参数指向 s3 存储桶路径,创建数据帧并使用 saveAsTable 写入增量,数据库和表都显示在指向 s3 的粘合点中

回答 2 投票 0

如何处理 Apache Spark 中不断变化的 parquet 模式

我遇到了一个问题,我将 Parquet 数据作为 S3 中的每日块(以 s3://bucketName/prefix/YYYY/MM/DD/ 的形式),但无法从 AWS EMR Spark 中读取数据不同的日期因为...

回答 4 投票 0

Apache Spark 未按预期执行动态分配

我在 AWS EMR 集群中运行的 Spark 中有以下设置。根据这些设置,Spark 应该为我的作业分配最多 10 个执行程序。但即使没有,我也只看到分配了 2 个执行者

回答 1 投票 0

如何在 Amazon EMR 的 JupyterLab 中使用自定义 Python 版本作为新内核?

我使用的是 Amazon EMR 7.x,默认情况下具有 Python 3.9。 我添加了基于Python 3.11的自定义 https://github.com/aws-samples/aws-emr-utilities/blob/main/utilities/emr-ec2-custom-python3/README.md...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.