amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

在 EMR 上使用 OpenBLAS Spark

尝试在 EMR 实例上运行 Spark 2.1.0 中的 MlLib ALS 算法时，我不断收到臭名昭著的警告：警告 BLAS：无法从以下位置加载实现：com.github.fommil.netlib.NativeSyst...

amazon-web-services apache-spark amazon-emr lapack blas

回答 2 投票 0

如何在 Amazon EMR、EC2 上为 Breeze 配置高性能 BLAS/LAPACK

我正在尝试建立一个环境来支持集群上的探索性数据分析。根据对现有内容的初步调查，我的目标是使用 Scala/Spark 与 Amazon EMR 来配置

apache-spark amazon-ec2 amazon-emr scala-breeze jblas

回答 2 投票 0

Apache Hive - 编程上相同的查询但结果不同，为什么？

我有2个表Table1有41列和超过1亿条记录，Table2有20列和1000万条记录。我使用以下查询来验证记录。查询01。选择计数(*) FROM

sql hive amazon-emr

回答 1 投票 0

IllegalArgumentException：BigQueryConnectorException$InvalidSchemaException：目标表的架构与数据帧的架构不兼容

我们无法将数据写入大查询中。面临以下问题。大查询连接器 jar：spark-3.4-bigquery-0.33.0.jar 错误客户端：应用程序诊断消息：用户类引发异常：jav...

apache-spark amazon-emr google-cloud-dataproc

回答 1 投票 0

Amazon EMR：未找到 geopandas==0.14.0 的匹配分布

我正在尝试启动 Amazon EMR 6.14.0 集群。这是我的引导脚本 set_up.sh： #!/usr/bin/env bash 设置-e python3.11 -m pip install geopandas==0.14.0 但是，Amazon EMR 集群失败...

pip amazon-emr geopandas

回答 1 投票 0

Spark 执行器空闲超时

我有一个 EMR 集群，在其中运行带有 Spark 动态分配的 pyspark 作业。 Spark.dynamicAllocation.enabled=true 下面是集群的配置 1 个节点 128GB 内存 10核核心节点自动缩放...

apache-spark pyspark bigdata amazon-emr

回答 1 投票 0

在 AWS EMR 中设置每个步骤的环境变量

我无法为我的 Spark 应用程序设置环境变量。我正在使用 AWS EMR 运行 Spark 应用程序。这更像是我在 Spark 之上用 python 编写的一个框架，用于运行多个...

amazon-web-services apache-spark pyspark hadoop-yarn amazon-emr

回答 2 投票 0

AWS EMR 设置自动终止策略问题

无法设置 EMR 自动终止空闲时间 AWS SDK 2.21.5最新版本，我将作业发送到 AWS EMR。在AWS控制台中，如下所示，空闲时间是正确的，但终止选项仍然是

amazon-emr

回答 1 投票 0

Spark 2.2.0 - 如何将 DataFrame 写入/读取 DynamoDB

我希望我的 Spark 应用程序从 DynamoDB 读取表，执行操作，然后将结果写入 DynamoDB。将表读入 DataFrame 现在，我可以将表从 DynamoDB 读取到 Spark 中...

scala apache-spark amazon-dynamodb amazon-emr

回答 3 投票 0

如何配置 AWS EMR 在上次作业完成后等待一段时间

目前EMR集群会在最后一个作业完成后自动终止。我们有服务将新作业（步骤）发送到现有正在运行的 EMR 集群。由于集群启动需要时间和成本...

amazon-emr

回答 1 投票 0

带有 SERDEPROPERTIES 的 Hive CREATE TABLE 语句会引发错误

我正在进行从 HDP 到 AWS EMR 的迁移项目。作为这项工作的一部分，我们使用 HDP 中的 CREATE TABLE 语句在 EMR Hive 中创建表，这是使用 show create 获得的

hadoop hive hiveql amazon-emr hortonworks-data-platform

回答 1 投票 0

pyspark 和 Iceberg：“更新 *”在“合并到”中不起作用？

我在AWS EMR studio上运行pyspark 合并到iceberg_catalog.staging.tbl AS t 使用 tempview AS ON t.number = s.number 匹配后更新 * 如果不匹配，则插入 * 但得到了 pyspark.sql...

apache-spark pyspark apache-spark-sql amazon-emr iceberg

回答 1 投票 0

AWS EMR 无服务器 Spark 作业异常

尝试运行一个简单的 Spark 作业（从 s3 读取 json 文件并打印架构）时出现此错误。 “com.amazonaws.emr.serverless.shaded.software.amazon.awssdk.services。

amazon-web-services pyspark serverless amazon-emr

回答 1 投票 0

我无法在 AWS EMR 上运行 dask 纱线集群

我想使用 YarnCluster 在 EMR 上运行 dask。我使用了下面的引导脚本，但我已经在 SSH 控制台中运行了这些指令。 #!/bin/bash HELP="用法：bootstrap-dask [选项] AWS EMR 示例

jupyter-notebook dask hadoop-yarn amazon-emr dask-distributed

回答 1 投票 0

Spark 中的广播加入不适用于左外

我有一个小表（2k）记录和大表（500万）记录。我需要从小表中获取所有数据，并且只从大表中匹配数据，所以为了实现这一点，我执行了下面的查询瑟...

apache-spark pyspark apache-spark-sql amazon-emr

回答 3 投票 0

如何解决 EMR Spark 内存不足错误

我有一个 Spark 作业，正在尝试在 EMR 上执行。它给了我以下错误： java.lang.OutOfMemoryError：Java堆空间 -XX:OnOutOfMemoryError="kill -9 %p" 执行 /bin/sh ...

apache-spark pyspark out-of-memory amazon-emr

回答 2 投票 0

文档中的简单 UDF 应用函数在 Spark 3.3 中失败

最新文档中的这个简单代码不适用于 EMR Studio Spark 集群（当前版本：3.3.1-amzn-0） df = Spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)...

pyspark jupyter-notebook user-defined-functions amazon-emr aws-emr-studio

回答 1 投票 0

避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键

我正在 AWS 数据管道中使用 EMR 活动。此 EMR 活动正在 EMR 集群中运行 Hive 脚本。它以 dynamo DB 作为输入并将数据存储在 S3 中。这是 EMR 法案中使用的 EMR 步骤...

amazon-web-services hadoop amazon-s3 amazon-emr

回答 5 投票 0

如何停止在我的 AWS EMR Spark 作业标准输出日志中看到 JVM 全线程转储？

我在 AWS EMR 中运行 PySpark 作业。最近，我升级了（AWS EMR 6.4、Spark 3.1.2）并切换到在 Docker 容器中运行作业。从那时起，std 中就有零星的线程转储......

java apache-spark jvm amazon-emr thread-dump

回答 1 投票 0

EMR 上的 Prestosql/trino 缩减会杀死查询

我在 EMR 上有一个 presto 集群。我们还根据 AWS Cloudwatch 指标制定了自动扩展策略。当集群缩小节点时，我们遇到一个问题，它不会等待在...上运行的查询

amazon-emr presto trino starburst

回答 1 投票 0

amazon-emr 相关问题

最新问题