pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何在pyspark中的同一列上同时使用group by和order by

我是 pyspark 的初学者。我想知道如何在同一列上同时使用 order by 和 group by 。我的疑问如下。我的期望是以字母顺序显示 user_state...

回答 1 投票 0

Spark jdbc 覆盖模式未按预期工作

我想使用spark执行更新和插入操作 请查找现有表格的图像参考 在这里,我更新 id :101 位置和插入时间并插入另外 2 条记录: ...

回答 6 投票 0

AWS Glue 工作室将 Pyspark 字符串列转换为日期返回 null

我有来自 S3 存储桶的数据,并且想要将日期列从字符串转换为日期。当前日期列的格式为 7/1/2022 12:0:15 AM。 我在 AWS Glue Studio 中使用的当前代码...

回答 3 投票 0

3、6、12 个月前间隔 pyspark

如何选择V1行3、6、12个月间隔 假设有如下表所示的表格 月 V1 202307 10 202306 20 202305 30 202304 40 202303 50 202302 60 202301 70 我想...

回答 1 投票 0

在 delta live 表中添加列元数据注释

我正在创建增量实时表,我想添加基于列的元数据注释。 下面是我的代码: @dlt.表( comment =“学生数据的扁平化表格”, 名称='

回答 1 投票 0

如何使用 pyspark 将不同的值放在一列中

我想将不同的值放在一列中 例如, 内华达州 问 值1 值2 值3 值4 234 1 10 0 0 0 234 2 0 15 0 0 234 3 0 0 20 0 234 4 0 0 0 25 根据 Q,值 1-4

回答 1 投票 0

pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在

这是我下面的代码,我收到此错误“pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在”我检查了其他帖子,但我不...

回答 1 投票 0

如何迭代 PySpark 分组数据中的行

我的数据格式是这样的: |编号 |地点|类型|日期|时间 | | 1 | 33 |出|2020-11-03| 08:35| | 1 | 34 |在 |2020-11-03| 08:37| | 1 | 33 |于|2020-11-03| 09:40| | 1 ...

回答 1 投票 0

如何在Python函数内更新pyspark数据框

我有一个Python函数,它接收pyspark数据帧并检查它是否具有脚本中使用的其他函数所需的所有列。特别是,如果缺少“体重”列,我想...

回答 1 投票 0

如何使用apache Spark和python创建嵌套对象

我在使用 apache Spark 和 python 创建嵌套对象时遇到问题。 我有以下数据框: GPS数据 根 |--vehicle_id:字符串(可空 = true) |-- Organization_id: 字符串 (

回答 1 投票 0

Spark sql 创建并引用映射/查找表,如 Qlik 的 applymap 函数

我正在 Azure Synapse Spark sql 笔记本中工作,我有一个查找表,其中包含主表中 15 个代码字段的显示值。我想避免将查找表加入...

回答 1 投票 0

pyspark - 这两个完整外连接有什么区别?

完整示例在这里。 我看到两种不同的输出,这两种方法在 pyspark 中的两个数据帧上进行完整的外部连接: 用户1_df。 \ 加入(users2_df,users1_df.email == users2_df.email,'

回答 1 投票 0

如何在Python中使用多线程来实现?

我是Python新手,我想了解如何使用多线程执行此操作,因为数据太大,此操作需要花费大量时间。 我在 Spark 中有大约 2500 多个列

回答 2 投票 0

在 pyspark 数据框中,我想根据窗口计算不同值

我有一个类似的数据框 计划 姓名 用户身份 美元 FWE QRS波 123 10 FWE QRS波 123 20 FWE QRS波 223 30 莱茵威 QRS波 223 40 在此输入图像描述 我想计算基于唯一 user_id 的数量...

回答 1 投票 0

处理 pyspark 中的动态列数(csv 文件)

我收到下面的 CSV 文件(没有标题)- D,neel,32,1,pin1,state1,公头 D,sani,31,2,pin1,state1,pin2,state2,女 D,raja,33,3,pin1,state1,pin2,state2,pin3,state3,男 我想创造...

回答 2 投票 0

Pyspark 如何避免顶部和嵌套结构中的组爆炸(代码优化)

问题 我想根据请求数据计算一些统计数据,这些数据按顶层中的值和嵌套层中的值分组。 explode-join和3x groupby的主要问题是大数据的代码(100G...

回答 1 投票 0

执行器内的内核共享内存

假设我们有 5 台工作机器。每个工作节点配置为 16 核和 64 GB 内存。总共 80 个核心和 320 GB 内存。 现在我们可以配置如下属性: 选项 1:设置...

回答 1 投票 0

如何使用 PySpark 将另一列中包含的列名称替换为该列的值?

我有一个 PySpark 数据框,如下所示: ID 第 1 列 列2 可乐 科尔B id_1 %可乐 < %colA int1 int3 Id_2 %colB t < %colB int2 int4 I want to replace strings starting with % with it's corresponding

回答 1 投票 0

Pyspark,帮助更改此代码以减去不同的行

我想从前一个 value1 行中减去当前 value2 行,当 week > 1 时 这是我的数据: ''' 从 pyspark.sql 将函数导入为 f 数据 = [ (1,1,1), (2,0,5), (3, ...

回答 1 投票 0

查找列不匹配的行

我怎样才能找到两列不相等的行(就像熊猫一样)? 数据= [(“约翰”,“多伊”),(无,“多伊”),(“约翰”,无),(无,无)] df = sp...

回答 2 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.