我有大约100.000多个文本文档。我想找到一种方法来回答这个(有点模棱两可)的问题:
对于给定的文档子集,n最常见的单词是什么-与整套文档有关?
例如,我想呈现趋势。词云显示类似“在给定日期范围内这些主题特别热门”的内容。 (是的,我知道这过于简单了:单词!=主题等。)
似乎我可以为所有文档中的所有单词计算类似tf-idf的值,然后进行一些数字运算,但我不想在这里重新发明任何轮子。
这应该起作用:http://lucene.apache.org/java/3_1_0/api/contrib-misc/org/apache/lucene/misc/HighFreqTerms.html
[This Stack Overflow question还包括Lucene的术语频率。
如果您还没有使用Lucene,那么您正在谈论的操作是Hadoop的经典介绍性问题(“字数”问题。