在搜索引擎中使用ScikitLearn TfidfVectorizer

问题描述 投票:0回答:2

我正在创建一个搜索引擎,以便可以使用关键字从经过预处理的pdf文件中提取句子(代表文档)。

我想知道scikit-learn中是否有一个内置函数来像一袋单词输出一样显示数据,这意味着我会将所有单词作为列(在熊猫中),所有文档作为行,和tf-idf值作为值

python scikit-learn search-engine tf-idf tfidfvectorizer
2个回答
0
投票

您在scikit中学习了TfIdfVectorizerTfIdfTransformer

结果是您需要的结果,它们之间有以下区别:


0
投票

您当然可以在玩具问题中这样做,并且仅出于教育目的,但是对于真正的玩具,这完全是不切实际

© www.soinside.com 2019 - 2024. All rights reserved.