我想找出一种方法来计算相似单词在多行中出现的次数。例如,
Street
出现过,Carla
出现过两次。 (* 注意 --> 有很多这样的行,其中我不确定哪个词是常见的)
描述 |
---|
街头29欧元 |
街头31美元 |
卡拉 xyz 45 输出 |
345街tmd |
卡拉 asb 6789 蒂姆 |
请帮忙
不确定您的数据是什么格式,但我们假设它是 pandas DataFrame。
首先转换为列表:
rows = df["Description"]
创建一个大列表作为所有单词的容器:
large_list = []
迭代行,用空格分割每行,并将该行中的单词列表附加到大列表中:
for row in rows:
large_list += row.split()
计算列表中每个元素(单词)出现的频率:
import collections
counts = collections.Counter(large_list)
print(counts)
您可能想要添加过滤器,例如单词只能包含字母(而不是数字)、停用词过滤等..