有没有一种简单有效的方法来检查python数据帧只是为了重复(而不是删除它们)基于列?
我想检查一个数据框是否有基于列组合的重复,如果有,则失败该过程。
TIA。
最简单的方法是检查数据帧中的行数是否等于删除重复项后的行数。
if df.count() > df.dropDuplicates([listOfColumns]).count(): raise ValueError('Data has duplicates')