假设我有3列。它们是“字”,“字数”和“正数”。 “阳性”列按年份分类。我需要找到按“积极”分类的最常见单词。当我使用此代码时:
df.sort_values(by=['Positive', 'Word Count', 'Word'], ascending=False, axis=0).head(5)[['Word', 'Word Count', 'Positive']]
它给了我这个输出:
Word Word Count Positive
BEST 2654899 2012
INNOVATIVENESS 541 2011
EFFECTIVE 16420419 2009
BENEFIT 9902500 2009
ABLE 4090099 2009
您可以看到,它需要考虑字数统计之前的年份。如果我切换它们,那么我只会得到总体上最常用的单词。我对此的解决方案是通过仅考虑> = 0的值然后按“字数”排序来对“正”列进行子集化。我的问题是,可以在不将“正数”列设为一个布尔值的情况下对其进行子集化,然后将其放入我的函数中。