apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

查找组中的重叠部分并分类到新的不同组中

最初我认为这是一个简单的问题,但我就是想不通。 这是一个简化的示例。我有 8 个不同的人从商店购买一些商品。之后我想看看...

回答 1 投票 0

Apache Spark DataFrame、CSV 和原始行值

我可以通过以下方式使用 Apache Spark 读取 csv 文件,例如: df = Spark.read.format("csv").option("header", "true").load("csvfile.csv") 我有什么办法可以访问整个原始(原始)

回答 1 投票 0

回答 3 投票 0

Spark 3.0出现以下问题如何解决?无法创建托管表。关联位置已存在。;

在我的 Spark 工作中,我尝试覆盖结构化流的每个微批次中的一个表 batchDF.write.mode(SaveMode.Overwrite).saveAsTable("mytable") 它产生了以下错误。 ...

回答 1 投票 0

读取多个 csv 文件非常慢/根本不读取

我试图根据他们的示例从“Spark-The-Definitive-Guide-master”中简单地读取 2 个 CSV 文件。 当有超过 1 个 CSV 文件时,内核永远不会完成以下操作 ...

回答 1 投票 0

如何在 Pyspark 中读取嵌套 JSON

我正在尝试读取从以下位置下载的嵌套 JSON:text 运行代码时: # 读取指定选项的JSON文件 df = Spark.read.format("json") \ .option("推断模式&q...

回答 1 投票 0

如何在spark/iceberg中启用存储分区连接?

如何使用Spark 3.3.0中的存储分区连接功能?我已经尝试过,我的查询计划仍然显示昂贵的 ColumnarToRow 和 Exchange 步骤。我的设置如下: 连接两个

回答 3 投票 0

Spark:未找到参数证据的隐含内容

我在 Scala 上有以下 Spark 代码: def main(args: Array[String]): 单位 = { val Spark = SparkSession.builder.master("local").getOrCreate() 导入spark.implicits._ ...

回答 1 投票 0

如何获取 Spark DataFrame 中每行列表中最高值的索引? [PySpark]

我已经完成了LDA主题建模并将其存储在lda_model中。 转换原始输入数据集后,我检索一个 DataFrame。其中一列是主题分布,其中概率...

回答 2 投票 0

Spark消费者使用docker运行时找不到kafka主题分区

当我提交连接到 kafka 代理的 Spark 应用程序时,它会执行 kafka 查询,但不会将任何内容返回到控制台。找不到主题分区。 这是我的日志

回答 1 投票 0

包含 pyspark SQL:TypeError:“Column”对象不可调用

我使用的是spark 2.0.1, df.show() +--------+------+---+-----+-----+----+ |幸存|Pclass|性别|SibSp|Parch|票价| +--------+------+---+-----+-----+----+ | 0.0| 3.0|1.0| 1.0| 0.0| 7.3| | ...

回答 2 投票 0

在 Spark SQL 中连接两个 DataFrame 并仅选择其中一个的列

我在 Spark SQL 中有两个 DataFrame(D1 和 D2)。 我正在尝试将它们两者进行内部连接 D1.join(D2,“某些列”) 并且只返回D1的数据,而不是完整的数据集。 D1和D2都是h...

回答 5 投票 0

如何关闭spark实例

一旦我完成在 Jupyter 笔记本上运行的工作,我想在这里停止我的 Spark 实例。 我最后确实执行了spark.stop(),但是当我打开终端时,我仍然看到spark进程...

回答 3 投票 0

即使使用 VM 参数,Spark 3.4.1 和 Java 17 的单元测试也会失败

我正在将 Java 17 (corretto-17) 与 Gradle (7.3.3) 和 Scala (2.12.17) 一起使用,当运行使用 Spark (3.4.1) 的单元测试时,它失败并显示: java.lang.ExceptionInInitializerError:异常java...

回答 1 投票 0

Windows 上的 Spark-shell 错误“索引 32 处的路径中存在非法字符”

我正在尝试在我的新 Windows 笔记本电脑上设置 Spark。我在运行 Spark-shell 时遇到以下错误: ” 错误主要:无法初始化 Spark 会话。 java.lang.reflect.

回答 0 投票 0

接受空字符串和增量表结构值的列

我正在使用 Pyspark 在 Databricks 中处理非结构化数据、JSON 文件。 基本上我有一些包含字段的 json 文件。 “Field1”是一个常规的 StructType,但是当它

回答 1 投票 0

我们可以使用多个sparksessions来访问两个不同的Hive服务器吗

我有一个场景来比较来自两个单独的远程配置单元服务器的两个不同的表源和目标,我们是否可以使用两个 SparkSession,就像我在下面尝试的那样:- 瓦尔火花 =

回答 3 投票 0

计算 pyspark 数据帧大小时出错

我正在尝试计算 DataFrame 大小,以确定在写入 Parquet 文件时重新分区 DataFrame 的分区数。 我找到了一篇关于尺寸估计器的帖子(这里...

回答 1 投票 0

在 EKS 上运行 Spark-sql 时无法通过 AWS 进行身份验证

我使用 kubernetes 作为集群管理器和调度程序来运行我的 Spark 工作负载。虽然我能够运行 Spark-Submit 以及 IAM 访问支持;我无法运行 Spark-sql。 这是命令...

回答 1 投票 0

如何根据唯一 ID 的日期更改 orderred 数据帧中前一行值的条件下的行值?

我需要了解如何在 Spark 中执行此操作: 我的数据框是这样的 |ID | 日期 | 状态 |X | 2023 年 1 月 20 日 | 氮 |X | 2023 年 1 月 21 日 | S |X | 2023 年 1 月 22 日 | S |X | 2023 年 1 月 23 日 | ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.