单个学期的TF-IDF分数是否合并？

Question

我正在阅读有关TF-IDF的内容，以便我可以从我的语料库中过滤掉常用词。在我看来，你得到每个单词，文档对的TF-IDF分数。

你注意哪个分数？您是否将所有文档的分数合并为一个单词？

Answer 1

TFIDF ex：

doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0.        , 0.70490949, 0.        , 0.50154891, 0.50154891],
   [0.57615236, 0.        , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()

因此，对于语料库中的每个doc，您都有一个line / 1d数组，并且该数组在您的语料库中具有len = total vocab（可能非常稀疏）。你要注意什么分数取决于你正在做什么，即在文档中找到最重要的单词，你可以在该doc中找到最高的TF-idf。在语料库中最重要的是查看整个数组。如果您正在尝试识别停用词，您可以考虑找到具有最小TF-IDF分数的X个词组。但是，我不建议首先使用TF-IDF来找到停用词，它会降低停用词的重量，但它们仍然经常出现，可以抵消减肥。你可能最好找到最常见的单词，然后将其过滤掉。你想看看你手动生成的任何一套。

单个学期的TF-IDF分数是否合并？

问题描述投票：0回答：1

1个回答

最新问题

单个学期的TF-IDF分数是否合并？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1