amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

Spark Streaming 和集中式日志记录：将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志，但我认为我的部分问题是

apache-spark hadoop-yarn amazon-emr log4j

回答 1 投票 0

即使 Spark 作业完成后，EMR 任务仍保持在 RUNNING 状态

我在 EKS 上的 AWS EMR 上运行 PySpark 作业（使用 Apache Hudi），驱动程序代码如下：与 (SparkSession.builder .appName(f"应用程序") .config('spark.serializer',...

amazon-web-services apache-spark amazon-emr emr-serverless

回答 1 投票 0

将自定义模块导入 AWS EMR

我有一个包含“main.py”文件的 s3 存储库，其中包含我构建的自定义模块（在“Cache”和“Helpers”内）：我的“main.py”文件如下所示：从 pyspark.sql 导入 SparkSession 来自

python amazon-web-services apache-spark pyspark amazon-emr

回答 1 投票 0

如何检查我的 Spark 应用程序是否正在利用所有可用资源？

在进行一些转换并将其加载到数据库后，我正在 Spark 中从 kafka 读取数据。当我通过 Spark-Submit 开始工作时，我可以看到它启动了 Spark 中提到的容器数量

apache-spark amazon-emr

回答 1 投票 0

EMR Pyspark 在运行 select 语句时看不到计算列

我在 EMR 6.10.1 上托管的托管 pyspark 环境中遇到一个相当奇怪的问题运行此查询时： Spark.sql("选择1作为a，a+a作为b，b+b作为d").show() 在本地机器上，

pyspark amazon-emr

回答 1 投票 0

AWS EMR PySpark UDF 失败并显示“无法运行命令 /usr/bin/virtualenv (...)”

我有一个 emr 版本为 6.10.0 的 emr 集群，我尝试在代码中使用 pyspark udf，但它始终失败并出现相同的错误。数据 = [("AAA",), ("BBB",)...

amazon-web-services apache-spark pyspark user-defined-functions amazon-emr

回答 2 投票 0

Spark 建议列出文档中提供的 Spark 和 Hadoop 依赖项，这是严格要求的吗？

在 Spark 文档中，它指出：如果您的代码依赖于其他项目，则需要将它们打包与您的应用程序一起，以便将代码分发到 Spark 簇。为了做到这一点...

apache-spark hadoop hbase amazon-emr

回答 1 投票 0

问题无法找到 s3ablock-0001-

当我尝试在 S3 上写入数据时，我在 Amazon EMR 上运行作业时遇到问题。这是堆栈跟踪： org.apache.hadoop.util.DiskChecker$DiskErrorException：找不到任何有效的本地可怕...

apache-spark hadoop pyspark amazon-emr

回答 4 投票 0

s3 存储桶中的输出文件在运行 Dbt 时不会被覆盖 - 使用 Iceberg 表配置的 Spark 模型

我们在 dbt 云配置中有一个模型，其中 Spark 在 AWS EMR 上运行，并以 Iceberg 作为目标表类型。目前我们已经设置了配置：materialized: 'table' 并且每次模型运行时，它都会创建

apache-spark amazon-emr dbt apache-iceberg dbt-cloud

回答 1 投票 0

为什么Flink核心节点不释放JVM Metaspace内存？

我正在运行一个 1.13.1 flink 集群，我在其中执行批处理作业，该作业执行 athena 查询并将结果保存在 athena 表中。我一天内多次提交这些作业。在每次执行中，cl...

apache-flink amazon-emr

回答 1 投票 0

如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5？

我正在开发一个 PySpark ETL 管道应用程序，以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时，我使用本地 mas...

sql-server apache-spark jdbc amazon-emr mssql-jdbc

回答 1 投票 0

如何计算Hbase的基础设施成本

我正在尝试使用 AWS EMR 计算 Hbase 基础设施的成本，但无法找到用于计算 HBase 读取/存储/写入成本的文档。我可以得到一些指导/帮助吗？

hbase amazon-emr large-data software-design

回答 2 投票 0

EMR-4.2.0 运行自定义 jar（命令运行程序）时出错

我正在 AWS - EMR-4.2.0 版本中运行 sqoop 安装脚本，遵循本文档。创建集群后（在步骤中），我已提交我的 sqoop 脚本作为参数和 s3://

java amazon-web-services amazon-emr

回答 4 投票 0

用于使用 imdsv2 创建 emr 集群的 Cloudformation 模板

我有两个cloudformation模板： (1) - 用于使用 imdsv2 创建 ec2 实例 (2) - 用于创建 emr 集群 (imdsv1)。我正在寻找更新 emr 集群的模板，所以...

amazon-web-services aws-cloudformation amazon-emr

回答 1 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里，我尝试模拟 Hudi 数据集的更新和删除，并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。尝试使用

apache-spark spark-streaming amazon-emr apache-hudi apache-iceberg

回答 1 投票 0

使用 AWS Lambda Python 获取 EMR 集群的标签列表

是否有任何函数可以获取 emr 集群（如 S3 存储桶）的标签列表？就像在 S3 存储桶中一样，我们有 get_bucket_tagging 我尝试使用 get_list 但它不起作用。如果有的话请告诉我...

python amazon-web-services aws-lambda amazon-emr

回答 1 投票 0

df.show 返回 java.lang.ClassNotFoundException：org.postgresql.Driver

请仔细阅读，本文并非重复。我正在尝试通过 AWS 上的 EMR 访问 RDS 数据库。我在齐柏林飞艇上这样做了：从 pyspark.sql 导入 SparkSession 火花 = SparkSession \ ...

postgresql jdbc pyspark amazon-rds amazon-emr

回答 4 投票 0

Trino 冰山连接器“未实现 GlueHiveMetastore 的 getTablesWithParameter”

我在 EMR 版本 6.5 上运行 trino，并且我已经为 trino 添加了 Iceberg 连接器，我希望它使用胶水目录。这些是iceberg.properties下的配置连接器.name=

aws-glue amazon-emr trino apache-iceberg

回答 1 投票 0

尝试从 EMR 7.0.0 集群写入 S3 时出现 400 错误请求错误

我有一个使用 emr-5.29.0 和 Spark 2.4.4 完美运行的 Spark 应用程序。这个应用程序使用 Spark SQL 写入 S3，如下所示 df .repartition($"年", $"月", $"日&

apache-spark amazon-s3 apache-spark-sql amazon-emr

回答 1 投票 0

确保在 EMR 上的 PySpark 中批量处理下载时遵守文件大小限制

我正在开发一个在 Amazon EMR 上运行的 PySpark 应用程序，其中我的任务涉及根据 DataFrame 中的 URL 下载文件。目标是在 EMR 执行程序上持续下载这些文件...

python apache-spark pyspark amazon-emr

回答 1 投票 0

amazon-emr 相关问题

最新问题