SO帖子的Tf-idf(标签只能出现一次)

问题描述 投票:0回答:1

使用stackoverflow数据转储,我正在分析用pytorch或keras标记的SO帖子。具体来说,我计算每个co标签出现的次数(即pytorch标记的帖子中不是pytorch的标签)。

我想过滤掉那些常见的标签,它们已经失去了我的分析的真正含义(比如python标签)。

我正在研究Tf-idf

TF重申每个文档的单词频率。但是,对于给定的帖子,每个联合标记只能出现一次(即,您无法将帖子'html'标记五次)。所以大多数单词的tf为1/5,而其他单词的tf较小(因为post只有4个标签)。在这种背景下,仍然可以做Tf-Idf吗?

python nlp tf-idf
1个回答
0
投票

如果要过滤掉常见的标记,可以使用conditional probability。例如:python在发布pytorch的帖子上很常见,所以P(python | pytorch)会很高兴,喜欢:0.9。您可以找到过滤这些标记的阈值。 Association rule learning比上述更合适,更复杂。

© www.soinside.com 2019 - 2024. All rights reserved.