amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

我的执行器核心总数如何比 Spark 应用程序集群中的核心总数多？

我正在使用 AWS EMR 运行带有 1 个主节点实例 (m6g.xlarge) 和 1 个从节点实例 (m6g.2xlarge) 的 Spark。 m6g.2xlarge 有 8 个 vCpu，默认 cpu 核心。我正在用下面的程序运行 Spark...

apache-spark amazon-emr

回答 1 投票 0

使用 Airflow 执行 EMR 步骤失败

我在本地环境中使用 Airflow，在使用以下代码块创建集群后在 EMR 中添加一个步骤。 def add_step(cluster_id,jar_file,step_args): print("集群 ID : {}".

python amazon-web-services amazon-s3 airflow amazon-emr

回答 1 投票 0

如何使用 SSM 在 AWS EMR 中设置环境变量以供 pyspark 脚本使用

我正在使用 emr-6.12.0 并尝试设置存储在 bootstrap.sh 文件中的秘密管理器中的环境变量。 SECRET_NAME =“/myapp/dev/secrets” SECRETS_JSON=$(aws Secretsmanager 获取-

apache-spark pyspark amazon-emr

回答 1 投票 0

EMR 无服务器 NoClassDefFoundError：软件/amazon/awssdk/transfer/s3/progress/TransferListener

我有一个 Spark 应用程序，可以从 S3 读取镶木地板文件。我的管道非常简单，并且在我的本地集群上运行良好。这是我阅读镶木地板的相关部分：最终数据集&l...

java apache-spark amazon-s3 parquet amazon-emr

回答 1 投票 0

如何按顺序填充数据框中的缺失值？

我在 PySpark 中有一个数据框，如下所示：行_id、组_id 1, 1 2、空 3、空 4、空 5, 5 6、空 7、空 8, 8 9、空 10、空 11、...

python dataframe pyspark amazon-emr

回答 1 投票 0

EMR集群日志到cloudwatch

我们的 Apache-Flink 作业在 EMR 集群上运行，我们将日志生成到 EMR，因为日志的可用时间有限：如何将它们生成到 Cloudwatch？

apache-flink amazon-emr

回答 1 投票 0

无法在 EKS docker 镜像上的 EMR 上启动 Flink SQL 客户端

我正在 EKS 上使用 EMR 的 Flink docker 镜像 - public.ecr.aws/emr-on-eks/flink/emr-6.15.0-flink:latest。当我尝试启动 SQL 客户端时，我看到以下错误。（我没有看到这个错误

java docker apache-flink amazon-emr flink-sql

回答 1 投票 0

将 Amazon SageMaker 终端节点集成到 Glue 或 EMR 上的批量 ETL 工作流程中

我们如何才能最好地通过 Glue、基于 EMR 的 Spark 作业配置上述 AWS Sagemaker ML 模型端点？正如我们在 AWS 文档“此处”中看到的，端点名称为“线性学习器-2019-11-04-01...

python amazon-web-services amazon-emr aws-glue amazon-sagemaker

回答 2 投票 0

DataFrame 中不能有调用集合操作的地图类型列

：org.apache.spark.sql.AnalysisException：在调用集合操作（相交、例外等）的DataFrame中不能有映射类型列，但列map_col的类型是map 我有一张蜂巢桌，...

hive pyspark apache-spark-sql amazon-emr

回答 2 投票 0

如何在pyspark中读取大型zip文件

我在 s3 上确实有 n 个 .zip 文件，我想处理这些文件并从中提取一些数据。 zip 文件包含单个 json 文件。在Spark中我们可以读取.gz文件，但是我没有找到任何方法......

python pyspark amazon-emr

回答 1 投票 0

在 EC2 集群上的 EMR 上使用 Pyspark 读取 delta 格式 parquet

我遇到过一种情况，我可以在常规 EC2 实例上运行 pyspark，手动 pip 安装 pyspark，然后调用 delta-core jar 包依赖项作为 Spark 配置，如 o...

apache-spark pyspark amazon-emr delta-lake

回答 1 投票 0

AWS EMR - 因错误而终止在主实例上应用程序预置失败

我正在配置 EMR 集群 emr-5.30.0。我使用 Terraform 运行此命令，并在 AWS CONSOLE 上出现以下错误，因为它失败了。 Amazon EMR 集群 j-11I5FOBxxxxxx 已于 2020 年因错误终止...

amazon-web-services amazon-emr terraform-provider-aws

回答 4 投票 0

如何在AWS EMR上安装openSSL 1.1？

我正在使用 boostrap 文件为运行 Pyspark 的 EMR 项目安装 python 3.10。 Python 3.10 需要 openSSL 1.1 或更高版本才能使用，但 EMR 具有 OpenSSL 1.0.2k-fips（运行命令 openssl

openssl amazon-emr python-3.10

回答 1 投票 0

在 EMR 6.8 上运行的 Python 版本

EMR 6.8 支持什么版本的 Python？看起来 EMR 的早期版本支持 Python 3.7，该版本将在 6 个月后弃用。 EMR 6.8 运行 Spark 3.3.0，最多支持 Python 3...

pyspark amazon-emr

回答 3 投票 0

如何使 EMR 集群自动扩展以利用按需实例，同时保持在最大限制内？

我有一个由 Terraform 创建的 EMR 集群。这是自动缩放策略：资源“aws_emr_management_scaling_policy”“my_aws_emr_management_scaling_policy”{ cluster_id = var.

amazon-web-services terraform amazon-emr

回答 1 投票 0

获取 VS Code Python 扩展以连接到在远程 AWS EMR 驱动程序节点上运行的 Jupyter

我有一个在 EMR 驱动程序节点上运行的工作 Jupyter 服务器，我可以在其中毫无问题地运行 python 和 pyspark 代码。当尝试让 VS Code Python 扩展连接到同一个 Jup 时...

visual-studio-code amazon-emr vscode-python

回答 1 投票 0

在 EMR 上使用 OpenBLAS Spark

尝试在 EMR 实例上运行 Spark 2.1.0 中的 MlLib ALS 算法时，我不断收到臭名昭著的警告：警告 BLAS：无法从以下位置加载实现：com.github.fommil.netlib.NativeSyst...

amazon-web-services apache-spark amazon-emr lapack blas

回答 2 投票 0

如何在 Amazon EMR、EC2 上为 Breeze 配置高性能 BLAS/LAPACK

我正在尝试建立一个环境来支持集群上的探索性数据分析。根据对现有内容的初步调查，我的目标是使用 Scala/Spark 与 Amazon EMR 来配置

apache-spark amazon-ec2 amazon-emr scala-breeze jblas

回答 2 投票 0

Apache Hive - 编程上相同的查询但结果不同，为什么？

我有2个表Table1有41列和超过1亿条记录，Table2有20列和1000万条记录。我使用以下查询来验证记录。查询01。选择计数(*) FROM

sql hive amazon-emr

回答 1 投票 0

IllegalArgumentException：BigQueryConnectorException$InvalidSchemaException：目标表的架构与数据帧的架构不兼容

我们无法将数据写入大查询中。面临以下问题。大查询连接器 jar：spark-3.4-bigquery-0.33.0.jar 错误客户端：应用程序诊断消息：用户类引发异常：jav...

apache-spark amazon-emr google-cloud-dataproc

回答 1 投票 0

amazon-emr 相关问题

最新问题