amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

我的执行器核心总数如何比 Spark 应用程序集群中的核心总数多?

我正在使用 AWS EMR 运行带有 1 个主节点实例 (m6g.xlarge) 和 1 个从节点实例 (m6g.2xlarge) 的 Spark。 m6g.2xlarge 有 8 个 vCpu,默认 cpu 核心。 我正在用下面的程序运行 Spark...

回答 1 投票 0

使用 Airflow 执行 EMR 步骤失败

我在本地环境中使用 Airflow,在使用以下代码块创建集群后在 EMR 中添加一个步骤。 def add_step(cluster_id,jar_file,step_args): print("集群 ID : {}".

回答 1 投票 0

如何使用 SSM 在 AWS EMR 中设置环境变量以供 pyspark 脚本使用

我正在使用 emr-6.12.0 并尝试设置存储在 bootstrap.sh 文件中的秘密管理器中的环境变量。 SECRET_NAME =“/myapp/dev/secrets” SECRETS_JSON=$(aws Secretsmanager 获取-

回答 1 投票 0

EMR 无服务器 NoClassDefFoundError:软件/amazon/awssdk/transfer/s3/progress/TransferListener

我有一个 Spark 应用程序,可以从 S3 读取镶木地板文件。我的管道非常简单,并且在我的本地集群上运行良好。 这是我阅读镶木地板的相关部分: 最终数据集&l...

回答 1 投票 0

如何按顺序填充数据框中的缺失值?

我在 PySpark 中有一个数据框,如下所示: 行_id、组_id 1, 1 2、空 3、空 4、空 5, 5 6、空 7、空 8, 8 9、空 10、空 11、...

回答 1 投票 0

EMR集群日志到cloudwatch

我们的 Apache-Flink 作业在 EMR 集群上运行,我们将日志生成到 EMR,因为日志的可用时间有限:如何将它们生成到 Cloudwatch?

回答 1 投票 0

无法在 EKS docker 镜像上的 EMR 上启动 Flink SQL 客户端

我正在 EKS 上使用 EMR 的 Flink docker 镜像 - public.ecr.aws/emr-on-eks/flink/emr-6.15.0-flink:latest。当我尝试启动 SQL 客户端时,我看到以下错误。 (我没有看到这个错误

回答 1 投票 0

将 Amazon SageMaker 终端节点集成到 Glue 或 EMR 上的批量 ETL 工作流程中

我们如何才能最好地通过 Glue、基于 EMR 的 Spark 作业配置上述 AWS Sagemaker ML 模型端点? 正如我们在 AWS 文档“此处”中看到的,端点名称为“线性学习器-2019-11-04-01...

回答 2 投票 0

DataFrame 中不能有调用集合操作的地图类型列

:org.apache.spark.sql.AnalysisException:在调用集合操作(相交、例外等)的DataFrame中不能有映射类型列,但列map_col的类型是map 我有一张蜂巢桌,...

回答 2 投票 0

如何在pyspark中读取大型zip文件

我在 s3 上确实有 n 个 .zip 文件,我想处理这些文件并从中提取一些数据。 zip 文件包含单个 json 文件。在Spark中我们可以读取.gz文件,但是我没有找到任何方法......

回答 1 投票 0

在 EC2 集群上的 EMR 上使用 Pyspark 读取 delta 格式 parquet

我遇到过一种情况,我可以在常规 EC2 实例上运行 pyspark,手动 pip 安装 pyspark,然后调用 delta-core jar 包依赖项作为 Spark 配置,如 o...

回答 1 投票 0

AWS EMR - 因错误而终止 在主实例上应用程序预置失败

我正在配置 EMR 集群 emr-5.30.0。我使用 Terraform 运行此命令,并在 AWS CONSOLE 上出现以下错误,因为它失败了。 Amazon EMR 集群 j-11I5FOBxxxxxx 已于 2020 年因错误终止...

回答 4 投票 0

如何在AWS EMR上安装openSSL 1.1?

我正在使用 boostrap 文件为运行 Pyspark 的 EMR 项目安装 python 3.10。 Python 3.10 需要 openSSL 1.1 或更高版本才能使用,但 EMR 具有 OpenSSL 1.0.2k-fips(运行命令 openssl

回答 1 投票 0

在 EMR 6.8 上运行的 Python 版本

EMR 6.8 支持什么版本的 Python? 看起来 EMR 的早期版本支持 Python 3.7,该版本将在 6 个月后弃用。 EMR 6.8 运行 Spark 3.3.0,最多支持 Python 3...

回答 3 投票 0

如何使 EMR 集群自动扩展以利用按需实例,同时保持在最大限制内?

我有一个由 Terraform 创建的 EMR 集群。这是自动缩放策略: 资源“aws_emr_management_scaling_policy”“my_aws_emr_management_scaling_policy”{ cluster_id = var.

回答 1 投票 0

获取 VS Code Python 扩展以连接到在远程 AWS EMR 驱动程序节点上运行的 Jupyter

我有一个在 EMR 驱动程序节点上运行的工作 Jupyter 服务器,我可以在其中毫无问题地运行 python 和 pyspark 代码。当尝试让 VS Code Python 扩展连接到同一个 Jup 时...

回答 1 投票 0

在 EMR 上使用 OpenBLAS Spark

尝试在 EMR 实例上运行 Spark 2.1.0 中的 MlLib ALS 算法时,我不断收到臭名昭著的警告: 警告 BLAS:无法从以下位置加载实现:com.github.fommil.netlib.NativeSyst...

回答 2 投票 0

如何在 Amazon EMR、EC2 上为 Breeze 配置高性能 BLAS/LAPACK

我正在尝试建立一个环境来支持集群上的探索性数据分析。根据对现有内容的初步调查,我的目标是使用 Scala/Spark 与 Amazon EMR 来配置

回答 2 投票 0

Apache Hive - 编程上相同的查询但结果不同,为什么?

我有2个表Table1有41列和超过1亿条记录,Table2有20列和1000万条记录。 我使用以下查询来验证记录。 查询01。 选择计数(*) FROM

回答 1 投票 0

IllegalArgumentException:BigQueryConnectorException$InvalidSchemaException:目标表的架构与数据帧的架构不兼容

我们无法将数据写入大查询中。面临以下问题。 大查询连接器 jar:spark-3.4-bigquery-0.33.0.jar 错误客户端:应用程序诊断消息:用户类引发异常:jav...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.