检查Pyspark Dataframe中的重复项

问题描述 投票:1回答:1

有没有一种简单有效的方法来检查python数据帧只是为了重复(而不是删除它们)基于列?

我想检查一个数据框是否有基于列组合的重复,如果有,则失败该过程。

TIA。

python-2.7 dataframe pyspark spark-dataframe
1个回答
2
投票

最简单的方法是检查数据帧中的行数是否等于删除重复项后的行数。

if df.count() > df.dropDuplicates([listOfColumns]).count():
    raise ValueError('Data has duplicates')
© www.soinside.com 2019 - 2024. All rights reserved.