amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

Spark中同规格硬件上本地处理和集群处理有什么区别？

本地模式 vs 集群模式我是一个刚刚使用EMR的新手。我正在使用 AWS EMR。有主节点、核心节点、任务节点。为什么要使用多核/任务？我不能只用一个吗？难道是……

amazon-web-services apache-spark amazon-emr

回答 1 投票 0

Delta Lake 表 PySpark/Glue 目录 EMR

使用 Spark 创建数据库，位置参数指向 s3 存储桶路径，创建数据帧并使用 saveAsTable 写入增量，数据库和表都显示在指向 s3 的粘合点中

pyspark aws-glue amazon-emr delta-lake

回答 2 投票 0

如何处理 Apache Spark 中不断变化的 parquet 模式

我遇到了一个问题，我将 Parquet 数据作为 S3 中的每日块（以 s3://bucketName/prefix/YYYY/MM/DD/ 的形式），但无法从 AWS EMR Spark 中读取数据不同的日期因为...

apache-spark apache-spark-sql parquet amazon-emr

回答 4 投票 0

Apache Spark 未按预期执行动态分配

我在 AWS EMR 集群中运行的 Spark 中有以下设置。根据这些设置，Spark 应该为我的作业分配最多 10 个执行程序。但即使没有，我也只看到分配了 2 个执行者

apache-spark amazon-emr

回答 1 投票 0

如何在 Amazon EMR 的 JupyterLab 中使用自定义 Python 版本作为新内核？

我使用的是 Amazon EMR 7.x，默认情况下具有 Python 3.9。我添加了基于Python 3.11的自定义 https://github.com/aws-samples/aws-emr-utilities/blob/main/utilities/emr-ec2-custom-python3/README.md...

amazon-web-services amazon-emr jupyter-lab

回答 1 投票 0

ModuleNotFoundError：与 EMR Serverless 一起使用时没有名为“pyspark.sql”的模块

当我尝试在 EMR 无服务器上运行作业时，出现以下错误 - ModuleNotFoundError：没有名为“pyspark.sql”的模块。请参阅用户指南了解如何使用 python 库...

apache-spark pyspark amazon-emr

回答 1 投票 0

如何在 AWS EMR 启动后添加 shell 脚本

目前，我使用的是临时集群，每当我的 shell 脚本在“add_step”中遇到故障时，它就会关闭。我已经启动了 EMR 来调试它，但不知道在哪里添加并且......

amazon-web-services amazon-s3 pyspark apache-spark-sql amazon-emr

回答 1 投票 0

如何通过slack获取EMR失败的确切原因？

当我的 pyspark 代码/引导程序失败时，我需要收到松弛通知，并提供 EMR 失败的确切原因。我正在使用airflow 2.0，并且我正在使用 on_failure_callback=task_fail_slack_alert

airflow amazon-emr airflow-2.x airflow-api

回答 1 投票 0

PySpark 并行写入镶木地板

我正在使用 6 个工作人员运行 PySpark 作业，在此工作期间，我的所有转换都被执行到多个工作人员中，但是当我尝试将输出保存为镶木地板文件时，我可以看到...

amazon-web-services apache-spark pyspark amazon-emr

回答 1 投票 0

EMR - Spark 版本从 2.4.0 升级到 3.1.2 导致 AWS Open Search (Elasticsearch 6.7) 出现写入问题

我目前正在使用 EMR 发行版本 [emr.5.23.0]，即 Spark 2.4.0 和 Spark Elastic Search Connector [elasticsearch-spark-30_2.12-7.12.0.jar] 将数据写入 AWS Open Search （弹性搜索...

scala apache-spark amazon-emr opensearch elasticsearch-spark

回答 1 投票 0

我的执行器核心总数如何比 Spark 应用程序集群中的核心总数多？

我正在使用 AWS EMR 运行带有 1 个主节点实例 (m6g.xlarge) 和 1 个从节点实例 (m6g.2xlarge) 的 Spark。 m6g.2xlarge 有 8 个 vCpu，默认 cpu 核心。我正在用下面的程序运行 Spark...

apache-spark amazon-emr

回答 1 投票 0

使用 Airflow 执行 EMR 步骤失败

我在本地环境中使用 Airflow，在使用以下代码块创建集群后在 EMR 中添加一个步骤。 def add_step(cluster_id,jar_file,step_args): print("集群 ID : {}".

python amazon-web-services amazon-s3 airflow amazon-emr

回答 1 投票 0

如何使用 SSM 在 AWS EMR 中设置环境变量以供 pyspark 脚本使用

我正在使用 emr-6.12.0 并尝试设置存储在 bootstrap.sh 文件中的秘密管理器中的环境变量。 SECRET_NAME =“/myapp/dev/secrets” SECRETS_JSON=$(aws Secretsmanager 获取-

apache-spark pyspark amazon-emr

回答 1 投票 0

EMR 无服务器 NoClassDefFoundError：软件/amazon/awssdk/transfer/s3/progress/TransferListener

我有一个 Spark 应用程序，可以从 S3 读取镶木地板文件。我的管道非常简单，并且在我的本地集群上运行良好。这是我阅读镶木地板的相关部分：最终数据集&l...

java apache-spark amazon-s3 parquet amazon-emr

回答 1 投票 0

如何按顺序填充数据框中的缺失值？

我在 PySpark 中有一个数据框，如下所示：行_id、组_id 1, 1 2、空 3、空 4、空 5, 5 6、空 7、空 8, 8 9、空 10、空 11、...

python dataframe pyspark amazon-emr

回答 1 投票 0

EMR集群日志到cloudwatch

我们的 Apache-Flink 作业在 EMR 集群上运行，我们将日志生成到 EMR，因为日志的可用时间有限：如何将它们生成到 Cloudwatch？

apache-flink amazon-emr

回答 1 投票 0

无法在 EKS docker 镜像上的 EMR 上启动 Flink SQL 客户端

我正在 EKS 上使用 EMR 的 Flink docker 镜像 - public.ecr.aws/emr-on-eks/flink/emr-6.15.0-flink:latest。当我尝试启动 SQL 客户端时，我看到以下错误。（我没有看到这个错误

java docker apache-flink amazon-emr flink-sql

回答 1 投票 0

将 Amazon SageMaker 终端节点集成到 Glue 或 EMR 上的批量 ETL 工作流程中

我们如何才能最好地通过 Glue、基于 EMR 的 Spark 作业配置上述 AWS Sagemaker ML 模型端点？正如我们在 AWS 文档“此处”中看到的，端点名称为“线性学习器-2019-11-04-01...

python amazon-web-services amazon-emr aws-glue amazon-sagemaker

回答 2 投票 0

DataFrame 中不能有调用集合操作的地图类型列

：org.apache.spark.sql.AnalysisException：在调用集合操作（相交、例外等）的DataFrame中不能有映射类型列，但列map_col的类型是map 我有一张蜂巢桌，...

hive pyspark apache-spark-sql amazon-emr

回答 2 投票 0

如何在pyspark中读取大型zip文件

我在 s3 上确实有 n 个 .zip 文件，我想处理这些文件并从中提取一些数据。 zip 文件包含单个 json 文件。在Spark中我们可以读取.gz文件，但是我没有找到任何方法......

python pyspark amazon-emr

回答 1 投票 0

amazon-emr 相关问题

最新问题