我有一个包含大约4000个客户问题的数据集。我想了解客户最常询问的主题。我没有主题列表。我想在专栏中得到一个字数。
数据位于pandas数据帧中。
使用空白的split
和expand=True
的DataFrame
,由stack
重塑并获得value_counts
的排序计数:
df = pd.DataFrame({'a':['aa ss d','f d aa aa','aa']})
print (df)
a
0 aa ss d
1 f d aa aa
2 aa
s = df['a'].str.split(expand=True).stack().value_counts()
print (s)
aa 4
d 2
f 1
ss 1
dtype: int64
对于DataFrame
:
df1 = (df['a'].str.split(expand=True)
.stack()
.value_counts()
.rename_axis('vals')
.reset_index(name='count'))
print (df1)
vals count
0 aa 4
1 d 2
2 f 1
3 ss 1