数据集的二值化导致重复。对此有任何解决方案吗?

问题描述 投票:0回答:1

我已将数据集转换为二进制。所有为0的数值都为0,所有大于0的值都转换为1。现在,这导致数据重复。我正在使用NSLKDD数据集。有超过25000个实例,现在将它们转换为二进制文件并删除重复项后,仅剩下1729个不重复的实例。我应该如何将它们二值化而不重复?哦,我把它喂给了遗传算法,它也造成了后代的重复。

python machine-learning svm genetic-algorithm preprocessor
1个回答
-1
投票

我不确定是否知道数据集,但是如果您有一个包含几列的数据框df

df
columnA columnB columnC ....
....

question为您提供有关删除重复项的概述:

#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)
© www.soinside.com 2019 - 2024. All rights reserved.