我有一组带有标签(喜欢/不喜欢)的文本文档(2000多个)。每个文档包含200多个单词。我正在尝试对这些文档进行有监督的学习。我的方法是:
如何矢量化和创建这样的数据集?
您可以尝试的其中一项操作是使用Doc2Vec。这将使您能够将每个文档映射到维度N的向量。然后,您可以使用任何监督学习算法来训练这N个特征。
[doc2vec提到here还有其他替代方法。也尝试使用使用TF-IDF的Word2Vec矢量的平均值方法。
[此外,请确保在应用doc2vec或word2vec之前先进行适当的文本清理。如大小写规范化,停用词删除,标点符号删除等步骤,这实际上取决于您的数据集。了解更多here
如果您要预测喜欢/不喜欢,我还建议根据数据设计一些功能。这取决于您的数据和问题,但是一些示例是
我希望这会有所帮助...