从mydataset中的行中删除重复项

问题描述 投票:0回答:2

我拥有一个CSV文件,其中包含436列和14k行。单元内数据的格式为字符串。对于该示例,它看起来像这样:

A,A,A,B,B,C,C,,,,,
D,F,D,F,D,F,H,,,,,

我的目标是仅使每一行具有其唯一值。像这样:

A,B,C,,,,,,,,
D,F,H,,,,,,,,

该文件位于csv / txt文件中。我可以使用Jupyter笔记本(与Python3或你们将提供的任何其他代码一起使用)。但这是我工作的环境。任何帮助都将是惊人的!我也将csv作为数据框上传到笔记本。你们有什么建议?

python dataframe duplicates rows data-cleaning
2个回答
0
投票

首先,您必须将csv文件读入numpy数组。然后,对于每一行,我都会做类似的事情:

import numpy as np
s='A,A,A,B,B,C,C'
f=s.split(',')
np.unique(np.array(f))

打印array(['A', 'B', 'C'], dtype='|S1')


0
投票

如果您将csv加载为数据帧df

© www.soinside.com 2019 - 2024. All rights reserved.