在 pyspark 数据框中，我想根据窗口计算不同值

Question

我有一个类似的数据框

我想根据计划和名称分区来计算唯一 user_id 的数量。

我期待类似的输出

计划	名字	用户ID	美元	un_count
FWE	QRS波	123	10	2
FWE	QRS波	123	20	2
FWE	QRS波	223	30	1
莱茵集团	QRS波	223	40	1

我想要这个 un_count 使用 withColumn 函数

Answer 1

试试这个。

df['un_count'] = df.groupby(['plan', 'name', 'user_id'])['user_id'].transform('count')