pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

将 zip 文件读入 Apache Spark 数据帧

使用 Apache Spark(或 pyspark),我可以将文本文件读取/加载到 Spark 数据帧中,并将该数据帧加载到 sql 数据库中,如下所示: df = Spark.read.csv("MyFilePath/MyDataFile.txt", sep=...

回答 2 投票 0

如何在pyspark中过滤和更新增量表并保存结果?

我在 s3 中保存了一个增量表,我正在使用 aws 粘合作业将一组 csv 读入 pyspark 数据帧,然后通过将数据帧行附加到增量表来更新增量表。

回答 1 投票 0

如何在 Pyspark 中使用复杂数据类型

当我有一个数据框并且它有一个列名称是属性并且属性类型是时,我遇到以下问题 |-- 属性:字符串(可空 = true) 在那一栏中我有这样的价值观...

回答 1 投票 0

pyspark - 使用 OR 条件连接

如果至少满足两个条件之一,我想加入两个 pyspark 数据帧。 玩具数据: df1 = Spark.createDataFrame([ (10, 1, 666), (20, 2, 777), (30, 1, 888), (40, 3,...

回答 2 投票 0

从数据框中获取特定列中的重复行

我有一个数据框 df: 行数 = 5 列数 = 3 数据 = [ [10,20,30], [10, 50, 60], [70,80,90], [20,30,10], [20,10,20] ] columns = [f"Column_{i+1}" for i in ...

回答 1 投票 0

Apache Arrow 与 Apache Spark - UnsupportedOperationException:sun.misc.Unsafe 或 java.nio.DirectByteBuffer 不可用

我正在尝试在 PySpark 应用程序中将 Apache Arrow 与 Apache Spark 集成,但在执行过程中遇到与 sun.misc.Unsafe 或 java.nio.DirectByteBuffer 相关的问题。 导入...

回答 1 投票 0

Pyspark DataframeType 错误 a:DoubleType 无法接受类型中的对象“a”<class 'str'>

我有这个功能 自定义架构 = StructType([ \ StructField("a", Doubletype(), True), \ StructField("b", Doubletype(), True), StructField("c", Doubletyp...

回答 1 投票 0

在azure synapse管道中创建季度日期数组

我正在 Azure Synapse Pipeline 环境中工作,我正在尝试初始化一个包含日期“03-31”、“06-30”、“09-30”和“12-31”的数组...

回答 1 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。 数据框...

回答 1 投票 0

将 parquet 列转换为 Json

我有来自具有以下架构的 SQL Server 的镶木地板: 根 |-- user_uid: 字符串 (nullable = true) |-- user_email: 字符串 (nullable = true) |-- ud_id:整数(可空 = true) |--

回答 1 投票 0

Pyspark 3.5:Databricks 14.3 ML LTS 运行时对于相同代码给出不同的结果

我正在 Databricks 14.3 ML LTS 集群上运行以下代码。我正在执行从 Databricks 10.4 ML LTS 到 14.3 ML LTS 的代码迁移的验证任务。 窗口_c = ( 窗户() .

回答 1 投票 0

从字符串中删除重复字符:Pyspark

我想仅保留 pyspark 字符串列中的唯一字母。请建议任何不使用 udfs 的解决方案。我需要一个 Pyspark 解决方案,而不是 for...

回答 1 投票 0

从 databricks jdbc 连接读取数据到 redshift 时出错

我们使用 databricks 集群,在 30 分钟不活动后关闭(13.3 LTS(包括 Apache Spark 3.4.1、Scala 2.12))。 我的目标是读取红移表并将其写入雪花,我是

回答 1 投票 0

异常:在 Python 中创建 Spark 会话时,Java 网关进程在向驱动程序发送其端口号之前退出

所以,我尝试使用以下命令在 Python 2.7 中创建 Spark 会话: #初始化SparkSession和SparkContext 从 pyspark.sql 导入 SparkSession 从 pyspark 导入 SparkContext #Cre...

回答 6 投票 0

如何将 pyspark 中每列的映射数组合并到单个映射中

我已经关注了这个问题,但那里的答案对我不起作用 我不想要为此使用 UDF 并且 map_concat 对我不起作用。 还有其他方法可以合并地图吗? 例如 ID 价值 1 地图(k1...

回答 1 投票 0

Spark 熔化/将列转置为值

我正在尝试将表的列转置为行 我有一个看起来像这样的表: +-----+-----+-----+-----+ |日期 |col_1|col_2|col_...| +----------------+--------------------+ | 1 | 0.0| 0.6| ...

回答 1 投票 0

在 Databricks 中面临 python udf 的问题

我正在 PySpark 中处理分层数据,其中每个员工都有一个经理,我需要找到每个员工的所有内联经理。内联经理被定义为男人的经理......

回答 1 投票 0

Pyspark 减去数据框中分组行的最佳方法

在如下表所示的数据框中,我需要从另一行中减去两行的总和,所有行均按 CORP 和 BRANCH 类型分组(其中第一行已包含其他两行)。 公司 分支

回答 1 投票 0

不同的日期格式和反向日期

我有如下字符串类型的日期数据; 日期(字符串) 新日期(字符串) 2024 年 6 月 23 日 2024-06-23 2023 年 1 月 8 日 2023-08-01 2024-05-20 2024-05-20 如何从日期(字符串)列更改为新日期(...

回答 1 投票 0

如何在 Spark SQL 中聚合

我有一个像这样的数据集 用户 ID |价值 第1111章 1111 活跃 2222 活跃 我想分组并获取每个用户的第一个可用值,所以我这样做 选择 用户身份,

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.