我有一个如下所述的数据框,我需要根据列-value1,value2和value3(组应按id分组)找出重复的组。我需要将“重复的”列填充为true如果组出现在表中的其他位置,则组为唯一,并用false填充。
注意:每个组都有不同的ID。
df = pd.DataFrame({'id': ['A', 'A', 'A', 'A', 'B', 'B', 'C', 'C', 'C', 'C', 'D', 'D', 'D'],
'value1': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
'value2': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
'value3': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
'duplicated' : []
})
预期结果是:
我尝试过,但是如果要比较行,则需要比较组(按ID分组)
import pandas as pd
data = pd.read_excel('C:/Users/path/Desktop/example.xlsx')
# False : Mark all duplicates as True.
data['duplicates'] = data.duplicated(subset= ["value1","value2","value3"], keep=False)
data.to_excel('C:/Users/path/Desktop/example_result.xlsx',index=False)
我得到:
注意:两组记录的顺序都没有关系