用降序排列的单词频率百分比创建字典

问题描述 投票:0回答:1

我创建了一个字典,将单词频率显示为值。首先,我需要将这些频率转换为百分比。单词的总数为150482。其次,我需要将此字典按降序排列(基于以单词频率作为键的值),并将其与另一个包含频繁单词的字典进行比较。任何想法都可以做到的两件事:即以百分比形式更改值并将它们按降序排列成一小数(如果仅用于比较,则为最后一部分);其次,将该字典与常用词字典进行比较。这是我需要将值更改为百分比的第一本词典。


di=dict()
with open('content.txt',encoding='utf8') as newtext:
    for line in newtext:
        line=line.rstrip()
        words=line.split()
        for word in words:
            di[word]=di.get(word,0)+1

目标是找出常用单词字典中常用单词的百分比在di中出现(它显示文本文件中单词的频率)。第一个字典就像{the:TRUE}。换句话说,没有价值。只是关键字是需要在文件文本中找到其出现频率及其相关频率百分比的单词。

python word-frequency
1个回答
4
投票

一个好的开始是使用collections.Counter及其collections.Counter方法:

most_common

然后您可以操纵它以获得频率:

most_common
© www.soinside.com 2019 - 2024. All rights reserved.