SO帖子的Tf-idf（标签只能出现一次）

问题描述投票：0回答：1

使用stackoverflow数据转储，我正在分析用pytorch或keras标记的SO帖子。具体来说，我计算每个co标签出现的次数（即pytorch标记的帖子中不是pytorch的标签）。

我想过滤掉那些常见的标签，它们已经失去了我的分析的真正含义（比如python标签）。

我正在研究Tf-idf

TF重申每个文档的单词频率。但是，对于给定的帖子，每个联合标记只能出现一次（即，您无法将帖子'html'标记五次）。所以大多数单词的tf为1/5，而其他单词的tf较小（因为post只有4个标签）。在这种背景下，仍然可以做Tf-Idf吗？

python

nlp

tf-idf

1个回答

0
投票

如果要过滤掉常见的标记，可以使用conditional probability。例如：python在发布pytorch的帖子上很常见，所以P（python | pytorch）会很高兴，喜欢：0.9。您可以找到过滤这些标记的阈值。 Association rule learning比上述更合适，更复杂。

SO帖子的Tf-idf（标签只能出现一次）

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1