替代品TfidfVectorizer

问题描述 投票:0回答:1

是否有其他选择?TfidfVectorizer 的功能 sklearn.feature_extraction.text 模块?我听说过fastText和GloVe,但找不到如何使用它来矢量化文本的好方法。

编辑: 基本上,我有一个叫做旁白的功能,它由英语句子组成。为了将其输入到任何ML算法中,我必须将其转换为数字矩阵表示。TfIdf是一种方法。有没有其他的方法,我可以尝试一下?(可能在sklearn下,也可能不在sklearn下)

python machine-learning text-classification
1个回答
1
投票

你要找的是文本嵌入,请看例如 这个. 本质上,对于你的叙述特征,你是想把一个序列变成向量,因此seq_to_vec。TfIdf只是其中一种最简单的方法,它能产生一个稀疏的(更多的成分是=0,比不)。我建议你看看 此处 为一个好的起点。

© www.soinside.com 2019 - 2024. All rights reserved.