如果我有两个电影评论:
"this was a really good movie" and "i did not like this movie at all"
我将GloVe嵌入应用到它们中我会得到两个向量,其中包含多个单词向量,如下所示:
1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
基本上,评论中的每个单词都将转换为300个浮点数数组。由于数组的长度可变,因此我不能将它们插入分类器中。
我想过做一些Bag-of-Words表示,但我不确定如果这些单词已成为数字,我将如何实现。
只有当您将单词作为离散单位处理时,单词包表示才有意义。如果你想使用SVM而不使用神经网络,你可以使用嵌入是平均池或最大池(即,只是在句子长度上做平均值或最大值)。
在神经网络中,嵌入由CNN或RNN处理,基本上保留重要信息并丢弃其余信息。由于您在SVM模型中没有类似的东西,因此合理的做法是删除停用词。