我正在创建一个搜索引擎,以便可以使用关键字从经过预处理的pdf文件中提取句子(代表文档)。
我想知道scikit-learn中是否有一个内置函数来像一袋单词输出一样显示数据,这意味着我会将所有单词作为列(在熊猫中),所有文档作为行,和tf-idf值作为值
您在scikit中学习了TfIdfVectorizer和TfIdfTransformer。
结果是您需要的结果,它们之间有以下区别:
您当然可以在玩具问题中这样做,并且仅出于教育目的,但是对于真正的玩具,这完全是不切实际