使用word2vec字嵌入作为文本分类的特征向量(类似于计数向量化器/ tfidf特征向量)

问题描述 投票:-1回答:1

我正在尝试使用机器学习进行一些文本分类,并且我已经使用简单的词袋方法(计数矢量化器)和tfidf矢量化器从每个处理的文本数据中提取了特征向量。

现在我想使用word2vec即字嵌入作为我的特征向量,类似于计数向量化器/ tfidf向量化器,我应该能够从列车数据中学习词汇,并将测试数据与学习的词汇进行转换或拟合,但我不能找到一种方法来实现它。

//I need something like this with word2vec

count = CountVectorizer()
train_feature_ vector =count.fit_transform(train_data)
test_feature_vector = count.fit(test_data)

//So I can train my model like this
mb = MultinomialNB()
mb.fit(train_feature_vector,y_train)
acc_score = mb.score(test_feature_vector,y_test)
print("Accuracy "+str(acc_score))
machine-learning scikit-learn word2vec text-classification word-embedding
1个回答
1
投票

您首先应该了解Word嵌入是什么。当您应用CountVectorizer或TfIdfVectorizer时,您获得的是稀疏方式的句子表示,通常称为One Hot编码。单词嵌入表示用于表示实数的高维空间中的单词。

一旦你得到你的单词表示有一些方法来做到这一点,检查:How to get vector for a sentence from the word2vec of tokens in sentence

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.