amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

EMR 任务节点中的 Shuffle 日志填满磁盘

我在 EMR 6.9 上运行 Spark 3 作业,并且它正在连续运行作业。我注意到随着时间的推移,任务节点的磁盘使用量逐渐增加。我注意到任务节点上出现这样的错误 - ...

回答 1 投票 0

在 AWS 上,每天运行 AWS CLI 命令

我有一个 AWS CLI 调用(在本例中,启动已配置的 EMR 集群来执行一些步骤,然后关闭),但我不确定如何每天运行它。 我想一种方法是......

回答 3 投票 0

Redshift 将布尔数据类型解释为位,因此如果存在任何布尔数据类型列,则无法将 hudi 表从 S3 移动到 Redshift

我正在 AWS 中创建一个数据管道,用于通过 EMR 将数据从 S3 移动到 Redshift。数据以 HUDI 格式存储在 S3 的 parquet 文件中。我已经创建了用于全负载传输的 Pyspark 脚本并且...

回答 1 投票 0

ClassNotFoundException:使用 elasticsearch-hadoop for Spark 时的 scala.Product$class

我正在 AWS EMR 上运行 Spark-Submit 作业 从elasticsearch节点读取。 当作业执行此命令时 Python: es_config = { “es.nodes”:url_to_my_node, “es.port&q...

回答 1 投票 0

如何在scala中传递map中存在的列表元素?

我目前正在学习scala-spark,所以请耐心等待。 我正在尝试将函数应用于 scala 数据框来创建一个新列,如下所示 - 导入 org.apache.spark.sql.functions._ 导入 org.apa...

回答 1 投票 0

如何让 Amazon EMR 中的 Trino 同时支持 AWS Glue 数据目录中的 Delta 表和 Postgres 表?

我有一些由 AWS Glue 爬网程序在 AWS Glue 数据目录中注册的 Delta 表和 Postgres (Amazon RDS) 表: 我最初创建了一个 Amazon EMR 集群 aws emr 创建集群 \ --名字...

回答 1 投票 0

在 DBT 中使用 Nessie 命令但不使用 Spark 时出现语法错误

我们正在尝试使用 AWS EMR(在 EC2 上)、DBT、Spark 和 Nessie 设置环境。 即使所有扩展都已正确安装,并且像“CREATE BRANCH”这样的 Nessie 命令也可以在 clu 上工作...

回答 2 投票 0

对 AWS EMR 的安装充满期待

我尝试对数据质量抱有很大的期望 我正在 AWS EMR 集群中运行我的作业,并且我也尝试在 AWS EMR 上启动寄予厚望的作业 我有

回答 2 投票 0

PySpark monotonically_increasing_id 结果在本地和 AWS EMR 上不同

我创建了一个小函数,它将为每一行分配一个复合 id,以便在给定子集大小的情况下将行本质上分组为较小的子集。在我的本地计算机上,逻辑运行完美。有一次我

回答 1 投票 0

pyspark monotonically_increasing_id 奇怪的行为

我无法确定确切的原因,所以希望其他人知道。我创建了一个小函数,它将为每一行分配一个复合 id,以将行本质上分组为更小的子集,给出...

回答 1 投票 0

在 AWS EMR 中运行 Spark sql 查询

我设置了一个 AWS EMR 集群。 我选择了emr-6.0.0。 所选的应用程序是: Spark:Hadoop 3.2.1 YARN 上的 Spark 2.4.4 以及 Ganglia 3.7.2 和 Zeppelin 0.9.0-SNAPSHOT 之后我创建了一个ju...

回答 1 投票 0

EMR 上的 GCS 连接器因 java.lang.ClassNotFoundException 失败

我已经创建了一个 emr 集群,其中包含有关如何从此处提供的 gcs 创建连接并继续运行 hadoop distcp 命令的说明。 它不断失败并出现以下错误: 2023-...

回答 1 投票 0

EMR-Spark 工作负载过大的问题

我正在尝试使用 Spark 在 EMR 中运行繁重的工作负载。我的记录数接近 50 亿。我正在对其他数据帧进行诸如连接、分组、排序等转换,这些数据帧也有数十亿......

回答 0 投票 0

无法使用 jupterlab 的 pyspark 代码从 EKS 上的 EMR 读取 s3a 路径

尝试从 EKS 上的 EMR(使用托管端点)在 Pyspark 内核上运行以下代码,我尝试设置一些 s3a 相关的 Spark 配置,但似乎不起作用 从 pyspark.sql 导入 SparkSession # 创造...

回答 0 投票 0

将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping

对于安装在 Hadoop EMR 核心节点上的 Drill 集群,我们使用基于 PAM 的身份验证。这是下面的配置。 安全.用户.auth: { 启用:真, 包裹 +=...

回答 0 投票 0

优化Spark资源,避免内存和空间占用

我有一个大约 190GB 的数据集,被划分为 1000 个分区。 我的 EMR 集群最多允许 10 个 r5a.2xlarge TASK 节点和 2 个 CORE 节点。每个节点有 64GB mem 和 128GB EBS

回答 2 投票 0

EMR集群容量规划

我们计划使用 EMR 集群来处理 80 GB 的 Parquet 数据。我们想要规划为此所需的总核心和任务节点。我从 AWS 看到了这份用于规划能力的文档...

回答 0 投票 0

Spark Executor 连接正在接近

您好,我正在阅读 parquet 文件,但在 AWS EMR 中遇到以下错误:- 错误 TransportResponseHandler:从 ip-100-73-112-181.ec2.interna 连接时仍有 518 个请求未完成...

回答 0 投票 0

从 Apche Spark 读取 AWS DynamoDb 记录始终返回空数据集

我正在关注这篇文章,我想在我的 Spark 作业中从 dynamodb 读取数据。 问题是我从 dynamo db 读取的数据集始终为空。 我知道这一点是因为这个声明:系统....

回答 1 投票 0

仅加载部分 HBase/Phoenix 表作为 Spark Datafrom

我在 Spark 中使用以下代码将我的 HBase/Phoenix 表的指定列加载到 Spark Dataframe 中。我可以指定要加载的列,但我可以指定哪些行吗?还是我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.