从mydataset中的行中删除重复项

Question

我拥有一个CSV文件，其中包含436列和14k行。单元内数据的格式为字符串。对于该示例，它看起来像这样：

A,A,A,B,B,C,C,,,,,
D,F,D,F,D,F,H,,,,,

我的目标是仅使每一行具有其唯一值。像这样：

A,B,C,,,,,,,,
D,F,H,,,,,,,,

该文件位于csv / txt文件中。我可以使用Jupyter笔记本（与Python3或你们将提供的任何其他代码一起使用）。但这是我工作的环境。任何帮助都将是惊人的！我也将csv作为数据框上传到笔记本。你们有什么建议？

Answer 1

首先，您必须将csv文件读入numpy数组。然后，对于每一行，我都会做类似的事情：

import numpy as np
s='A,A,A,B,B,C,C'
f=s.split(',')
np.unique(np.array(f))
打印array(['A', 'B', 'C'], dtype='|S1')。

Answer 2

0
投票

如果您将csv加载为数据帧df：