如何使用python计算文本在多个单元格中出现的次数

问题描述 投票:0回答:1

我想找出一种方法来计算相似单词在多行中出现的次数。例如,

Street
出现过,
Carla
出现过两次。 (* 注意 --> 有很多这样的行,其中我不确定哪个词是常见的)

描述
街头29欧元
街头31美元
卡拉 xyz 45 输出
345街tmd
卡拉 asb 6789 蒂姆

请帮忙

python cloud nltk
1个回答
0
投票

不确定您的数据是什么格式,但我们假设它是 pandas DataFrame。

首先转换为列表:

rows = df["Description"]

创建一个大列表作为所有单词的容器:

large_list = []

迭代行,用空格分割每行,并将该行中的单词列表附加到大列表中:

for row in rows:
    large_list += row.split()

计算列表中每个元素(单词)出现的频率:

import collections
counts = collections.Counter(large_list)
print(counts)

您可能想要添加过滤器,例如单词只能包含字母(而不是数字)、停用词过滤等..

© www.soinside.com 2019 - 2024. All rights reserved.