在数据框中找到重复的组

问题描述 投票:2回答:1

我有一个如下所述的数据框,我需要根据列-value1,value2和value3(组应按id分组)找出重复的组。我需要将“重复的”列填充为true如果组出现在表中的其他位置,则组为唯一,并用false填充。

注意:每个组都有不同的ID。

df = pd.DataFrame({'id': ['A', 'A', 'A', 'A', 'B', 'B', 'C', 'C', 'C', 'C', 'D', 'D', 'D'],
                   'value1': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
                   'value2': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
                   'value3': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
                   'duplicated' : [] 
                   })

enter image description here

预期结果是:

enter image description here

我尝试过,但是如果要比较行,则需要比较组(按ID分组)

import pandas as pd
data = pd.read_excel('C:/Users/path/Desktop/example.xlsx')

# False : Mark all duplicates as True.
data['duplicates'] = data.duplicated(subset= ["value1","value2","value3"], keep=False)

data.to_excel('C:/Users/path/Desktop/example_result.xlsx',index=False)

我得到:

enter image description here

注意:两组记录的顺序都没有关系

python excel pandas dataframe
1个回答
0
投票
© www.soinside.com 2019 - 2024. All rights reserved.