如何自动对字典中的单词进行分类?

问题描述 投票:-1回答:3

我有一个很大的字典文件,dic.txt(实际上是SOWPODS),每行有一个英文单词。我想自动将这个文件分成3个不同的文件easy_dic.txt(我们每天使用的最常见的单词 - 一个16岁的词汇),medium_dic.txt(这些单词在常用中并没有那么多,但许多人都知道 - 知识一个30岁的减去easy_dic.txt中的单词,hard_dic.txt(非常深奥的单词,只有专业的拼字游戏玩家会知道)。什么是最简单的方法(您可以使用互联网上的任何资源)来实现这一目标?

language-agnostic data-mining classification
3个回答
4
投票

谷歌有合适的工具:),并分享其数据库!

Ngram viewer是一个检查和比较文学,杂志等词语出现频率的工具。

您可以下载数据库,并从here训练您的词典。

HTH!

BTW这个工具非常有趣,可以发现这个词的出生和消失日期。


0
投票
  • 拿一些以计算机可读形式提供的书籍(最好是三个类别)。
  • 为这些书中的所有单词创建直方图。
  • 合并每个类别的所有书籍的直方图。
  • 处理字典时,请检查字词具有最高计数的直方图的类别,并将该字词放在此类别中。

除了最后一步之外,您还可以简单地处理直方图并从所有直方图中删除一个单词,除了具有最高点击量的单词。然后你已经有一个单词列表,而不使用外部字典文件。


0
投票

下载Wikipedia转储,使用一些Lingpipe工具(最佳数据结构)学习单词频率。检查字典频率分布中的单词,然后将它们分成3组。

© www.soinside.com 2019 - 2024. All rights reserved.