查找相对于所有文档的关键词

问题描述 投票:0回答:1

我有大约100.000多个文本文档。我想找到一种方法来回答这个(有点模棱两可)的问题:

对于给定的文档子集,n最常见的单词是什么-与整套文档有关?

例如,我想呈现趋势。词云显示类似“在给定日期范围内这些主题特别热门”的内容。 (是的,我知道这过于简单了:单词!=主题等。)

似乎我可以为所有文档中的所有单词计算类似tf-idf的值,然后进行一些数字运算,但我不想在这里重新发明任何轮子。

我正计划使用LuceneSolr为文档建立索引。他们会帮助我解决这个问题吗?还是您会推荐/以外的其他一些工具?

text full-text-search statistics tf-idf
1个回答
1
投票

这应该起作用:http://lucene.apache.org/java/3_1_0/api/contrib-misc/org/apache/lucene/misc/HighFreqTerms.html

[This Stack Overflow question还包括Lucene的术语频率。

如果您还没有使用Lucene,那么您正在谈论的操作是Hadoop的经典介绍性问题(“字数”问题。

© www.soinside.com 2019 - 2024. All rights reserved.