在不使用窗口函数pyspark的情况下查找数据帧列中的重复项

问题描述 投票:-1回答:1

[stackoverflow中的此post使用window方法使用pyspark查找数据框是否具有重复值

w = Window.partitionBy('ID', 'ID2', 'Number')
dfdupe = df.select('*', f.count('ID').over(w).alias('dupeCount'))\
.where('dupeCount > 1')\
.drop('dupeCount')\
.show()

我读到开窗显示数据帧会将整个数据帧的内容强制进入内存,并且没有使用使分布式计算如此理想的rdd方法。我对这个假设是否正确?如果是这样,如何在不对大型数据集使用窗口的情况下实现相同的结果?

任何见识将不胜感激。

谢谢

更新:我忘了提到我不想删除重复项,而是将它们提取为单独的数据帧

pyspark pyspark-sql pyspark-dataframes
1个回答
最新问题
© www.soinside.com 2019 - 2024. All rights reserved.