是否有其他选择?TfidfVectorizer 的功能 sklearn.feature_extraction.text 模块?我听说过fastText和GloVe,但找不到如何使用它来矢量化文本的好方法。
TfidfVectorizer
sklearn.feature_extraction.text
编辑: 基本上,我有一个叫做旁白的功能,它由英语句子组成。为了将其输入到任何ML算法中,我必须将其转换为数字矩阵表示。TfIdf是一种方法。有没有其他的方法,我可以尝试一下?(可能在sklearn下,也可能不在sklearn下)
你要找的是文本嵌入,请看例如 这个. 本质上,对于你的叙述特征,你是想把一个序列变成向量,因此seq_to_vec。TfIdf只是其中一种最简单的方法,它能产生一个稀疏的(更多的成分是=0,比不)。我建议你看看 此处 为一个好的起点。