amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

Spark Streaming 和集中式日志记录:将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志,但我认为我的部分问题是

回答 1 投票 0

即使 Spark 作业完成后,EMR 任务仍保持在 RUNNING 状态

我在 EKS 上的 AWS EMR 上运行 PySpark 作业(使用 Apache Hudi),驱动程序代码如下: 与 (SparkSession.builder .appName(f"应用程序") .config('spark.serializer',...

回答 1 投票 0

将自定义模块导入 AWS EMR

我有一个包含“main.py”文件的 s3 存储库,其中包含我构建的自定义模块(在“Cache”和“Helpers”内): 我的“main.py”文件如下所示: 从 pyspark.sql 导入 SparkSession 来自

回答 1 投票 0

如何检查我的 Spark 应用程序是否正在利用所有可用资源?

在进行一些转换并将其加载到数据库后,我正在 Spark 中从 kafka 读取数据。 当我通过 Spark-Submit 开始工作时,我可以看到它启动了 Spark 中提到的容器数量

回答 1 投票 0

EMR Pyspark 在运行 select 语句时看不到计算列

我在 EMR 6.10.1 上托管的托管 pyspark 环境中遇到一个相当奇怪的问题 运行此查询时: Spark.sql("选择1作为a,a+a作为b,b+b作为d").show() 在本地机器上,

回答 1 投票 0

AWS EMR PySpark UDF 失败并显示“无法运行命令 /usr/bin/virtualenv (...)”

我有一个 emr 版本为 6.10.0 的 emr 集群,我尝试在代码中使用 pyspark udf,但它始终失败并出现相同的错误。 数据 = [("AAA",), ("BBB",)...

回答 2 投票 0

Spark 建议列出文档中提供的 Spark 和 Hadoop 依赖项,这是严格要求的吗?

在 Spark 文档中,它指出: 如果您的代码依赖于其他项目,则需要将它们打包 与您的应用程序一起,以便将代码分发到 Spark 簇。为了做到这一点...

回答 1 投票 0

问题无法找到 s3ablock-0001-

当我尝试在 S3 上写入数据时,我在 Amazon EMR 上运行作业时遇到问题。 这是堆栈跟踪: org.apache.hadoop.util.DiskChecker$DiskErrorException:找不到任何有效的本地可怕...

回答 4 投票 0

s3 存储桶中的输出文件在运行 Dbt 时不会被覆盖 - 使用 Iceberg 表配置的 Spark 模型

我们在 dbt 云配置中有一个模型,其中 Spark 在 AWS EMR 上运行,并以 Iceberg 作为目标表类型。 目前我们已经设置了配置:materialized: 'table' 并且每次模型运行时,它都会创建

回答 1 投票 0

为什么Flink核心节点不释放JVM Metaspace内存?

我正在运行一个 1.13.1 flink 集群,我在其中执行批处理作业,该作业执行 athena 查询并将结果保存在 athena 表中。 我一天内多次提交这些作业。 在每次执行中,cl...

回答 1 投票 0

如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?

我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...

回答 1 投票 0

如何计算Hbase的基础设施成本

我正在尝试使用 AWS EMR 计算 Hbase 基础设施的成本,但无法找到用于计算 HBase 读取/存储/写入成本的文档。 我可以得到一些指导/帮助吗?

回答 2 投票 0

EMR-4.2.0 运行自定义 jar(命令运行程序)时出错

我正在 AWS - EMR-4.2.0 版本中运行 sqoop 安装脚本,遵循本文档。 创建集群后(在步骤中),我已提交我的 sqoop 脚本作为参数和 s3://

回答 4 投票 0

用于使用 imdsv2 创建 emr 集群的 Cloudformation 模板

我有两个cloudformation模板: (1) - 用于使用 imdsv2 创建 ec2 实例 (2) - 用于创建 emr 集群 (imdsv1)。 我正在寻找更新 emr 集群的模板,所以...

回答 1 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里,我尝试模拟 Hudi 数据集的更新和删除,并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。 尝试使用

回答 1 投票 0

使用 AWS Lambda Python 获取 EMR 集群的标签列表

是否有任何函数可以获取 emr 集群(如 S3 存储桶)的标签列表?就像在 S3 存储桶中一样,我们有 get_bucket_tagging 我尝试使用 get_list 但它不起作用。如果有的话请告诉我...

回答 1 投票 0

df.show 返回 java.lang.ClassNotFoundException:org.postgresql.Driver

请仔细阅读,本文并非重复。 我正在尝试通过 AWS 上的 EMR 访问 RDS 数据库。我在齐柏林飞艇上这样做了: 从 pyspark.sql 导入 SparkSession 火花 = SparkSession \ ...

回答 4 投票 0

Trino 冰山连接器“未实现 GlueHiveMetastore 的 getTablesWithParameter”

我在 EMR 版本 6.5 上运行 trino,并且我已经为 trino 添加了 Iceberg 连接器,我希望它使用胶水目录。这些是iceberg.properties下的配置 连接器.name=

回答 1 投票 0

尝试从 EMR 7.0.0 集群写入 S3 时出现 400 错误请求错误

我有一个使用 emr-5.29.0 和 Spark 2.4.4 完美运行的 Spark 应用程序。这个应用程序使用 Spark SQL 写入 S3,如下所示 df .repartition($"年", $"月", $"日&

回答 1 投票 0

确保在 EMR 上的 PySpark 中批量处理下载时遵守文件大小限制

我正在开发一个在 Amazon EMR 上运行的 PySpark 应用程序,其中我的任务涉及根据 DataFrame 中的 URL 下载文件。目标是在 EMR 执行程序上持续下载这些文件...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.