df.drop_duplicates删除了太多条目

Question

我正在使用Python 3.6从BoardEX读取.csv文件。我知道数据中有很多重复的条目。

main = pd.read_csv("C:/Users/theca/Downloads/579b97d48dc72c8e.csv", encoding = 'ISO-8859-1')

main.head()

我需要通过“ BoardID”子集]

main["BoardID"].nunique()

191
这很好，我认为。

数据集的大小为300 x 6。

但是当我这样做时：

main.drop_duplicates(subset ="BoardID", 
                     keep = False, inplace = True)
结果有所不同吗？

main.shape (101, 6)

为什么nunique是191，但drop_duplicates之后的数字是101？

那么也许有人可以告诉我如何用191值而不是101值进行子集化？

提前感谢！

我正在使用Python 3.6从BoardEX读取.csv文件。我知道数据中有很多重复的条目。 main = pd.read_csv（“ C：/Users/theca/Downloads/579b97d48dc72c8e.csv”，编码='ISO -...

Answer 1

1
投票

因为使用参数keep = False：

Answer 2

0
投票

不需要keep=False：