如何使用具有大量文本文档的Gensim / Word2Vec / Doc2Vec进行监督学习?

问题描述 投票:0回答:1

我有一组带有标签(喜欢/不喜欢)的文本文档(2000多个)。每个文档包含200多个单词。我正在尝试对这些文档进行有监督的学习。我的方法是:

  1. 矢量化语料库中的每个文档。假设我们有2347个文档。
  2. 我可以有2347行,标签为viz。喜欢为1,喜欢为0。
  3. 使用具有2347行的数据集上方的任何ML分类监督模型训练。

如何矢量化和创建这样的数据集?

python nlp gensim word2vec doc2vec
1个回答
0
投票

您可以尝试的其中一项操作是使用Doc2Vec。这将使您能够将每个文档映射到维度N的向量。然后,您可以使用任何监督学习算法来训练这N个特征。

[doc2vec提到here还有其他替代方法。也尝试使用使用TF-IDF的Word2Vec矢量的平均值方法。

[此外,请确保在应用doc2vec或word2vec之前先进行适当的文本清理。如大小写规范化,停用词删除,标点符号删除等步骤,这实际上取决于您的数据集。了解更多here

如果您要预测喜欢/不喜欢,我还建议根据数据设计一些功能。这取决于您的数据和问题,但是一些示例是

  • 大写单词的比例
  • 是否有S语
  • 是否存在图释
  • 文字语言
  • 文本的情感-虽然这是一个全新的话题

我希望这会有所帮助...

© www.soinside.com 2019 - 2024. All rights reserved.