在应用GloVe嵌入后，如何创建Bag-of-Words特征向量？

Question

如果我有两个电影评论：

"this was a really good movie" and "i did not like this movie at all"

我将GloVe嵌入应用到它们中我会得到两个向量，其中包含多个单词向量，如下所示：

1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]] 
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]

基本上，评论中的每个单词都将转换为300个浮点数数组。由于数组的长度可变，因此我不能将它们插入分类器中。

我想过做一些Bag-of-Words表示，但我不确定如果这些单词已成为数字，我将如何实现。

Answer 1

只有当您将单词作为离散单位处理时，单词包表示才有意义。如果你想使用SVM而不使用神经网络，你可以使用嵌入是平均池或最大池（即，只是在句子长度上做平均值或最大值）。

在神经网络中，嵌入由CNN或RNN处理，基本上保留重要信息并丢弃其余信息。由于您在SVM模型中没有类似的东西，因此合理的做法是删除停用词。

在应用GloVe嵌入后，如何创建Bag-of-Words特征向量？

问题描述投票：0回答：1

1个回答

最新问题

在应用GloVe嵌入后，如何创建Bag-of-Words特征向量？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1