我正在使用Python 3.6从BoardEX读取.csv文件。我知道数据中有很多重复的条目。
main = pd.read_csv("C:/Users/theca/Downloads/579b97d48dc72c8e.csv", encoding = 'ISO-8859-1')
main.head()
我需要通过“ BoardID”子集]
main["BoardID"].nunique() 191
这很好,我认为。
数据集的大小为300 x 6。
但是当我这样做时:
main.drop_duplicates(subset ="BoardID", keep = False, inplace = True)
结果有所不同吗?
main.shape (101, 6)
为什么
nunique
是191,但drop_duplicates
之后的数字是101?
那么也许有人可以告诉我如何用191值而不是101值进行子集化?
提前感谢!
我正在使用Python 3.6从BoardEX读取.csv文件。我知道数据中有很多重复的条目。 main = pd.read_csv(“ C:/Users/theca/Downloads/579b97d48dc72c8e.csv”,编码='ISO -...
因为使用参数keep = False
:
不需要keep=False
: