TFIDF ex:
doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0. , 0.70490949, 0. , 0.50154891, 0.50154891],
[0.57615236, 0. , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()
因此,对于语料库中的每个doc,您都有一个line / 1d数组,并且该数组在您的语料库中具有len = total vocab(可能非常稀疏)。你要注意什么分数取决于你正在做什么,即在文档中找到最重要的单词,你可以在该doc中找到最高的TF-idf。在语料库中最重要的是查看整个数组。如果您正在尝试识别停用词,您可以考虑找到具有最小TF-IDF分数的X个词组。但是,我不建议首先使用TF-IDF来找到停用词,它会降低停用词的重量,但它们仍然经常出现,可以抵消减肥。你可能最好找到最常见的单词,然后将其过滤掉。你想看看你手动生成的任何一套。