使用word2vec字嵌入作为文本分类的特征向量（类似于计数向量化器/ tfidf特征向量）

问题描述投票：-1回答：1

我正在尝试使用机器学习进行一些文本分类，并且我已经使用简单的词袋方法（计数矢量化器）和tfidf矢量化器从每个处理的文本数据中提取了特征向量。

现在我想使用word2vec即字嵌入作为我的特征向量，类似于计数向量化器/ tfidf向量化器，我应该能够从列车数据中学习词汇，并将测试数据与学习的词汇进行转换或拟合，但我不能找到一种方法来实现它。

//I need something like this with word2vec

count = CountVectorizer()
train_feature_ vector =count.fit_transform(train_data)
test_feature_vector = count.fit(test_data)

//So I can train my model like this
mb = MultinomialNB()
mb.fit(train_feature_vector,y_train)
acc_score = mb.score(test_feature_vector,y_test)
print("Accuracy "+str(acc_score))

machine-learning scikit-learn word2vec text-classification word-embedding

1个回答

1
投票

您首先应该了解Word嵌入是什么。当您应用CountVectorizer或TfIdfVectorizer时，您获得的是稀疏方式的句子表示，通常称为One Hot编码。单词嵌入表示用于表示实数的高维空间中的单词。

一旦你得到你的单词表示有一些方法来做到这一点，检查：How to get vector for a sentence from the word2vec of tokens in sentence

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.