amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

从 dbt 配置文件连接到 Spark EMR thrift 服务器

我有一个用例，我正在使用 dbt-core（数据构建工具）和 dbt-spark 适配器连接到 EMR 集群。该集群位于私有子网中，并接受使用我...

apache-spark amazon-emr dbt

回答 0 投票 0

EMR 中基于 AWS Graviton 的 EC2 实例升级导致任务失败

我有一个在 EMR 中运行的 spark Scala 作业，我正在努力改进它。截至目前，它在 m5.8xlarge 上运行没有任何问题。我最近尝试升级到基于 Graviton 的 EC2 实例 m6g.8xlarge ...

apache-spark amazon-ec2 amazon-emr aws-graviton

回答 1 投票 0

运行 Hudi DeltaStreameron EMR 成功，但未同步到 AWS Glue 数据目录

当我在 EMR 上运行 Hudi DeltaStreamer 时，我看到 hudi 文件是在 S3 中创建的（例如，我在 S3 中看到一个 .hoodie/ 目录和预期的镶木地板文件。该命令类似于：火花提交\ --conf

amazon-emr apache-hudi

回答 1 投票 0

如何在 AWS EMR 上获取 spark 作业的标准输出

我可以使用以下命令在 AWS EMR 上提交一个 spark 任务。如何获取 Spark 作业的标准输出？ aws emr 添加步骤 --cluster-id ${CLUSTERID} \ --输出json\ --steps 类型=spark,名称=${

amazon-web-services apache-spark amazon-emr

回答 0 投票 0

编排和 EMR

我想在 emr 集群中运行多个 spark 作业，这些作业相互之间有一定的依赖性，一旦一切完成，最后一个步骤应该触发一个 lambda，它将启动一个...

apache-spark amazon-emr aws-step-functions

回答 0 投票 0

Spark Executor 挂在 ShuffleBlockFetcherIterator 远程获取上

我正在 Amazon EMR 环境中托管的 Spark 集群上运行一些 Sedona 地理空间查询。我的查询适用于某些输入数据集，但会挂在 Spark SQL 的“count()”方法上

apache-spark amazon-emr

回答 0 投票 0

如何在 AWS EMR serverless 上运行 Python 项目（包）？

我有一个包含多个模块、类和依赖文件（requirements.txt 文件）的 Python 项目。我想将它与所有依赖项一起打包到一个文件中，并将文件路径提供给 AWS EMR

amazon-emr emr-serverless

回答 1 投票 0

无法从 aws emr studio 笔记本或控制台中读取 s3 文件

我们有一个 EMR Studio，它设置了 S3 默认存储桶和文件路径，即 s3://OurBucketName/Subdirectory/work，我们在其中创建了一个工作区，该工作区附加到运行中的 EC2 集群...

amazon-s3 amazon-emr aws-emr-studio

回答 0 投票 0

无法通过 JDBC 连接到 emr-6.9.0 上的 hiveserver2

尝试连接启用 SSL 的 EMR 集群时，我一直收到无效状态 21。主节点未在 10001 上侦听（连接被拒绝），端口 10000 似乎也不起作用。

java ssl hive amazon-emr hiveserver2

回答 0 投票 0

Airflow 运行的 Spark EMR 实例的硬件要求

我正在为 Airflow 作业运行的 spark 任务请求 EMR 集群。我有以下带有 spark 任务选项的 Airflow DAG 部分：火花选项=[... ('驱动程序内存', '2g'), ('执行核心', '...

amazon-web-services apache-spark pyspark airflow amazon-emr

回答 0 投票 0

在 EKS 上运行 spark-sql 作业 EMR

我想提交一个 spark-sql 作业以通过气流在 EKS 上的 EMR 上运行。我在 AWS 上发现了一个新发布的 sparkSQlJobDriver 和一个用例。我尝试按如下方式在我的 dag 中实现它，但我得到了 **

amazon-web-services apache-spark apache-spark-sql airflow amazon-emr

回答 0 投票 0

使用 EMR 服务的 Python 和 Pyspark 代码可追溯性

需要将我们的 EMR 与 AWS 的一项服务集成用于一个用例，即“使用 EMR，python/pyspark 代码运行大约 10 亿个事务和处理......

amazon-web-services amazon-dynamodb amazon-emr

回答 1 投票 0

Spark 迭代算法

我们有一个用例，在 Spark 作业中我们遍历外部表的分区加载该分区的数据（每个分区几乎相同的数据卷）进行转换（自连接，无 udfs）...

apache-spark pyspark hive amazon-emr distributed-computing

回答 0 投票 0

AWS r4.16xlarge 集群中的核心数

我有一个 10 节点的 AWS r4.16xlarge 集群，在 spark UI 的执行器选项卡下，每次旋转集群时“核心”下的数字都不同，有时它显示 200，有些...

pyspark amazon-ec2 amazon-emr

回答 0 投票 0

How to dump heap to s3 using HeapDumpOnOutOfMemoryError in spark?

我正在尝试使用将堆文件从 spark(EMR) 转储到 s3 存储桶 new SparkConf().set("spark.driver.extraJavaOptions", "-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=s3://my-bucket/

apache-spark heap-memory amazon-emr oom

回答 1 投票 0

使用 pyspark 创建一个 50Giga 的随机整数镶木地板文件失败

我尝试使用不同大小的集群（AWS 上的 EMR），但由于 YARN 杀死所有节点，它总是失败： https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node...

pyspark random hadoop-yarn parquet amazon-emr

回答 1 投票 0

外部库中的 AWS EMR ClassNotFoundException

当我尝试在 EMR 上运行我的 jar 时，我收到错误 ClassNotFoundException。我注意到的是，此错误仅发生在外部库中，例如：错误：java.lang.ClassNotFoundExc...

java amazon-web-services maven amazon-emr

回答 0 投票 0

从 S3 到 DynamoDB 的 15 TB 数据摄取

我必须将 15 TB 的数据从 S3 提取到 DynamoDB。除了添加新列（插入日期）外，不需要任何转换。 S3 中的数据采用 parquet 格式，带有 snappy compre...

amazon-web-services amazon-s3 amazon-dynamodb amazon-emr data-ingestion

回答 1 投票 0

从 S3 到 DynamoDB 的 15 TB 数据摄取

我必须将 15 TB 的数据从 S3 提取到 DynamoDB。除了添加新列（插入日期）外，不需要任何转换。 S3 中的数据采用 parquet 格式，带有 snappy compre...

amazon-web-services amazon-s3 amazon-dynamodb amazon-emr data-ingestion

回答 0 投票 0

无法在 AWS EMR pyspark worker 上创建 boto3 客户端（botocore.exceptions.ProfileNotFound）

我已经设置了一个 AWS EMR 集群。我已将此脚本作为引导脚本包含在内： #!/bin/庆典 # 安装需要的库 sudo pip3 install pandas==1.3.5 awswrangler==2.19.0 boto3==1.26.72 什么...

amazon-web-services pyspark boto3 amazon-emr

回答 0 投票 0

amazon-emr 相关问题

最新问题