SVM分类任务中word2vec功能的输入格式是什么?

问题描述 投票:1回答:1

我在scikit学习中使用线性SVM进行二进制分类任务。我使用名义特征和单词向量。我使用预训练的Google word2vec获得了单词向量,但是,我不确定SVM如何将单词向量作为一个特征来处理。 似乎我需要在300个单独的特征(= 300个向量维度)中“分割”每个向量,因为我无法将向量作为一个整体传递给SVM。但这似乎不对,因为矢量应该被视为一个特征。 在这种情况下,表示向量的正确方法是什么?

python classification svm word2vec
1个回答
0
投票

矢量的许多功能

从SVM的角度来看,单词向量的每个维度都是一个单独的数字要素 - 该向量中的每个维度代表一个表示不同内容的数字度量。

这同样适用于非SVM分类器。例如,如果您有一个神经网络,并且您的输入要素是长度为300的单词向量,并且(为了粗略的例子)稍微说明该单词是否大写,那么您将连接这些内容和将有301个数字作为您的输入;您将该特征视为300个维度中的每一个。

© www.soinside.com 2019 - 2024. All rights reserved.