在数据框中找到重复的组

Question

我有一个如下所述的数据框，我需要根据列-value1，value2和value3（组应按id分组）找出重复的组。我需要将“重复的”列填充为true如果组出现在表中的其他位置，则组为唯一，并用false填充。

注意：每个组都有不同的ID。

df = pd.DataFrame({'id': ['A', 'A', 'A', 'A', 'B', 'B', 'C', 'C', 'C', 'C', 'D', 'D', 'D'],
                   'value1': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
                   'value2': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
                   'value3': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
                   'duplicated' : [] 
                   })

预期结果是：

我尝试过，但是如果要比较行，则需要比较组（按ID分组）

import pandas as pd
data = pd.read_excel('C:/Users/path/Desktop/example.xlsx')

# False : Mark all duplicates as True.
data['duplicates'] = data.duplicated(subset= ["value1","value2","value3"], keep=False)

data.to_excel('C:/Users/path/Desktop/example_result.xlsx',index=False)

我得到：

注意：两组记录的顺序都没有关系

在数据框中找到重复的组

问题描述投票：2回答：1

1个回答

最新问题

在数据框中找到重复的组

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1