在 pyspark 数据框中,我想根据窗口计算不同值

问题描述 投票:0回答:1

我有一个类似的数据框

计划 名字 用户ID 美元
FWE QRS波 123 10
FWE QRS波 123 20
FWE QRS波 223 30
莱茵集团 QRS波 223 40

enter image description here

我想根据计划和名称分区来计算唯一 user_id 的数量。

我期待类似的输出

计划 名字 用户ID 美元 un_count
FWE QRS波 123 10 2
FWE QRS波 123 20 2
FWE QRS波 223 30 1
莱茵集团 QRS波 223 40 1

我想要这个 un_count 使用 withColumn 函数

python dataframe pyspark
1个回答
0
投票

试试这个。

df['un_count'] = df.groupby(['plan', 'name', 'user_id'])['user_id'].transform('count')
© www.soinside.com 2019 - 2024. All rights reserved.