df.drop_duplicates删除了太多条目

问题描述 投票:0回答:1

我正在使用Python 3.6从BoardEX读取.csv文件。我知道数据中有很多重复的条目。

main = pd.read_csv("C:/Users/theca/Downloads/579b97d48dc72c8e.csv", encoding = 'ISO-8859-1')

main.head()

enter image description here

我需要通过“ BoardID”子集]

main["BoardID"].nunique()

191

这很好,我认为。

数据集的大小为300 x 6。

但是当我这样做时:

main.drop_duplicates(subset ="BoardID", 
                     keep = False, inplace = True)

结果有所不同吗?

main.shape
(101, 6)

为什么nunique是191,但drop_duplicates之后的数字是101?

那么也许有人可以告诉我如何用191值而不是101值进行子集化?

提前感谢!

我正在使用Python 3.6从BoardEX读取.csv文件。我知道数据中有很多重复的条目。 main = pd.read_csv(“ C:/Users/theca/Downloads/579b97d48dc72c8e.csv”,编码='ISO -...

pandas subset
1个回答
1
投票

因为使用参数keep = False


0
投票

不需要keep=False

© www.soinside.com 2019 - 2024. All rights reserved.