我有一个大型(> 2gb)数据集,需要像这样过滤重复项:如果 A、B、C、D 和 E 列中的值相同,则每个重复行中的 E 值(可以有多个)重复项)必须更改为 0。我是 python 新手,感谢您的帮助!
数据集:
| A 栏 | B 栏 | C 栏 | D 栏 | E 栏 |
| -------- | -------- | -------- | -------- | -------- |
|一个 |乙| c | d | e |
|一个 |乙| c | d |电子|
|一个 |乙| c | d | e |
输出:
A 栏 | B 栏 | C 栏 | D 栏 | E 栏 |
---|---|---|---|---|
a | b | c | d | e |
a | b | c | d | 0 |
a | b | c | d | 0 |
提前致谢
用途:
df.loc[df.duplicated(), 'Column E'] = 0
print (df)
Column A ColumnB Column C Column D Column E
0 a b c d e
1 a b c d 0
2 a b c d 0