apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何在没有 AWS 服务的情况下使用 Apache Spark 将数据从 Apache Iceberg 加载到 AWS Neptune?它可扩展吗?

我目前正在开发一个项目,需要将数据从 Apache Iceberg 表加载到 AWS Neptune 图形数据库中。我想使用 Apache Spark 执行此任务,但我不想...

回答 1 投票 0

根据条件向Array[String]类型的数据帧添加新列,spark scala

我有以下数据框 - 可乐 科尔B A1 B1 A2 B2 A3 B3 colA:字符串,colB:字符串 另外,我有一个 Map[String, Array[String]] 我想添加一个包含 Map 值的新列 'colC'

回答 1 投票 0

在 Flink 或 Spark 中订购批次的最佳方式是什么?

我正在 flink 中以批处理模式构建一个进程。我有一张包含 1 亿行的表,我需要按一个字段对所有表进行排序,所以我想知道什么是更好的技术来订购巨大的...

回答 1 投票 0

Spark中coalesce + orderBy可交换吗?

我想运行以下代码: df = df.coalesce(1).orderBy(["my_col"]) 但它的执行显然会在执行所有排序工作的单个任务上遇到瓶颈。 我知道有可能...

回答 2 投票 0

无法使用 getOrCreate 函数创建 Spark 会话

虽然我编写了一个简单的 PySpark 代码,但它在构建 Spark 会话时仍然失败。这是代码: 从 pyspark.sql 导入 * 从 pyspark 导入 SparkConf 从 lib.logger 导入 Log4j

回答 2 投票 0

在 Flink 或 Spark 中排序批量的最佳方法是什么?

我正在 flink 中以批处理模式构建一个进程。我有一张包含 1 亿行的表,我需要按一个字段对所有表进行排序,所以我想知道什么是更好的技术来订购巨大的...

回答 1 投票 0

为什么要使用Spark结构化流AvailableNow而不仅仅是普通的批处理数据帧?

我正在学习 Spark 结构化流,事情还有点模糊......我没有得到的一件事是使用批处理模式(AvailableNow = True)相对于普通模式的优势......

回答 1 投票 0

无法在 Jupyter Notebook 中启动 Spark 会话

当我尝试在 python 中构建 Spark 会话时,它花费了很多时间并且没有任何反应,也没有抛出错误。 我已经等了快一个小时了,事情还在进行中。 来自 pysp...

回答 1 投票 0

为什么.count()方法返回错误的项目数?

我正在使用 pySpark 并在 dataFrame 上使用 count() 我似乎得到了不正确的结果; 我制作了一个 csv,我想过滤类型不正确的行。一切正常(我使用 .show() 来检查),

回答 1 投票 0

使用函数过滤读取关键列时分区有帮助吗?

我有这个数据框: +------+ |我的_col| +------+ |202101| |202209| +------+ 当写入镶木地板文件时,我根据“my_col”列对其进行分区,因此我应该得到两个分区(两个镶木地板文件...

回答 1 投票 0

由于无法识别的配置单元类型而无法删除视图

我正在使用 Databricks(14.3 LTS、Apache Spark 3.5.0、Scala 2.12) 我创建了一个视图,然后我注意到我需要更改其列,然后我无法使用新架构重新创建它。此外...

回答 1 投票 0

java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

2024-05-31 22:47:36.939[0;39m [32m 信息[0;39m [35m10452[0;39m [2m---[0;39m [2m[ 主]][0;39m [36ms .s.e.d.SQLHadoopMapReduceCommitProtocol[0;39m [2m:[0;39m 使用输出提交者类组织....

回答 1 投票 0

如何在 Apache Airflow 中将 Spark Submit Operator 与 Cassandra 远程服务器结合使用

我正在将气流引入 WindowsPC 上的 Docker 容器。我对 apache airflow Spark 提交操作符有一些问题。我想将数据写入远程 Cassandra 服务器。 当我使用 df.wr 时...

回答 1 投票 0

使用函数读取过滤后的键列时分区有帮助吗?

我有这个数据框: +------+ |我的_col| +------+ |202101| |202209| +------+ 当写入镶木地板文件时,我根据“my_col”列对其进行分区,因此我应该得到两个分区(两个镶木地板文件...

回答 1 投票 0

使用 Spark/Python Glue 作业将数据提取到 hudi 表时出现无法解释的 s3 速度下降

我正在使用 AWS Glue Spark/python 作业将数据提取到 s3 存储桶中的 hudi 表中。我遇到了主要的 s3 速度下降问题,其方式超出了合理范围,但无法确定根本原因......

回答 1 投票 0

spark UI 中执行器页面的存储内存是如何计算的?

我需要知道spark UI中executors页面的存储内存是如何计算的? 我在 Spark 会话中将执行器内存保持为 3GB,但在 Spark UI 中执行器页面的存储内存中仅显示 1GB。 ...

回答 1 投票 0

Spark 和 Iceberg - 如何使用分区的 Iceberg 表避免 GroupBy 期间的随机播放

我正在尝试将 Glue/S3 上的 Apache Iceberg 与 Apache Spark 结合使用,使用 Spark 版本 3.5。作为一个小型 POC,我创建了一个 Iceberg 表来存储一些事件,其中有一个 UID 和一个...

回答 1 投票 0

如何在 Spark 中动态对数组列进行切片?

Spark 2.4引入了新的SQL函数slice,它可以用于从数组列中提取一定范围的元素。 我想根据整数列动态定义每行的范围...

回答 2 投票 0

如何计算分组 Spark 数据框中的布尔值

我想计算分组 Spark 数据框中的列中有多少条记录是真实的,但我不知道如何在 python 中执行此操作。例如,我有一个数据,其中包含地区、工资和 IsUnowned ...

回答 2 投票 0

使用 SQL 从 2 个表创建连续的日期范围

我想从两个表中识别相关时期并在两者之间创建一个序列组合。每次发生变化时,我都希望做出新的记录。 第一张表: 81080,“

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.