查找相对于所有文档的关键词

问题描述投票：0回答：1

我有大约100.000多个文本文档。我想找到一种方法来回答这个（有点模棱两可）的问题：

对于给定的文档子集，n最常见的单词是什么-与整套文档有关？

例如，我想呈现趋势。词云显示类似“在给定日期范围内这些主题特别热门”的内容。（是的，我知道这过于简单了：单词！=主题等。）

似乎我可以为所有文档中的所有单词计算类似tf-idf的值，然后进行一些数字运算，但我不想在这里重新发明任何轮子。

我正计划使用Lucene或Solr为文档建立索引。他们会帮助我解决这个问题吗？还是您会推荐/以外的其他一些工具？

text full-text-search statistics tf-idf

1个回答

1
投票

这应该起作用：http://lucene.apache.org/java/3_1_0/api/contrib-misc/org/apache/lucene/misc/HighFreqTerms.html

[This Stack Overflow question还包括Lucene的术语频率。

如果您还没有使用Lucene，那么您正在谈论的操作是Hadoop的经典介绍性问题（“字数”问题。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.