在应用GloVe嵌入后,如何创建Bag-of-Words特征向量?

问题描述 投票:0回答:1

如果我有两个电影评论:

"this was a really good movie" and "i did not like this movie at all"

我将GloVe嵌入应用到它们中我会得到两个向量,其中包含多个单词向量,如下所示:

1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]] 
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]

基本上,评论中的每个单词都将转换为300个浮点数数组。由于数组的长度可变,因此我不能将它们插入分类器中。

我想过做一些Bag-of-Words表示,但我不确定如果这些单词已成为数字,我将如何实现。

machine-learning nlp sentiment-analysis libsvm glove
1个回答
0
投票

只有当您将单词作为离散单位处理时,单词包表示才有意义。如果你想使用SVM而不使用神经网络,你可以使用嵌入是平均池或最大池(即,只是在句子长度上做平均值或​​最大值)。

在神经网络中,嵌入由CNN或RNN处理,基本上保留重要信息并丢弃其余信息。由于您在SVM模型中没有类似的东西,因此合理的做法是删除停用词。

© www.soinside.com 2019 - 2024. All rights reserved.