单个学期的TF-IDF分数是否合并?

问题描述 投票:0回答:1

我正在阅读有关TF-IDF的内容,以便我可以从我的语料库中过滤掉常用词。在我看来,你得到每个单词,文档对的TF-IDF分数。

你注意哪个分数?您是否将所有文档的分数合并为一个单词?

enter image description here

nlp tf-idf stop-words
1个回答
0
投票

TFIDF ex:

doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0.        , 0.70490949, 0.        , 0.50154891, 0.50154891],
   [0.57615236, 0.        , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()

因此,对于语料库中的每个doc,您都有一个line / 1d数组,并且该数组在您的语料库中具有len = total vocab(可能非常稀疏)。你要注意什么分数取决于你正在做什么,即在文档中找到最重要的单词,你可以在该doc中找到最高的TF-idf。在语料库中最重要的是查看整个数组。如果您正在尝试识别停用词,您可以考虑找到具有最小TF-IDF分数的X个词组。但是,我不建议首先使用TF-IDF来找到停用词,它会降低停用词的重量,但它们仍然经常出现,可以抵消减肥。你可能最好找到最常见的单词,然后将其过滤掉。你想看看你手动生成的任何一套。

© www.soinside.com 2019 - 2024. All rights reserved.