如何使用具有大量文本文档的Gensim / Word2Vec / Doc2Vec进行监督学习？

问题描述投票：0回答：1

我有一组带有标签（喜欢/不喜欢）的文本文档（2000多个）。每个文档包含200多个单词。我正在尝试对这些文档进行有监督的学习。我的方法是：

如何矢量化和创建这样的数据集？

python

nlp

gensim

word2vec

doc2vec

1个回答

0
投票

您可以尝试的其中一项操作是使用Doc2Vec。这将使您能够将每个文档映射到维度N的向量。然后，您可以使用任何监督学习算法来训练这N个特征。

[doc2vec提到here还有其他替代方法。也尝试使用使用TF-IDF的Word2Vec矢量的平均值方法。

[此外，请确保在应用doc2vec或word2vec之前先进行适当的文本清理。如大小写规范化，停用词删除，标点符号删除等步骤，这实际上取决于您的数据集。了解更多here

如果您要预测喜欢/不喜欢，我还建议根据数据设计一些功能。这取决于您的数据和问题，但是一些示例是

我希望这会有所帮助...