文档分类:预处理和多个标签

问题描述 投票:1回答:1

我对单词表示算法有疑问:word2Vec,doc2Vec和Tf-IDF中的哪一种算法更适合处理文本分类任务?在我的监督学习分类中使用的语料库由多个句子组成,包括短句子和长句子。如this thread中所述,doc2vec与word2vec的选择取决于文档的长度。至于Tf-Idf与文字嵌入,更多的是文字表示法。

我的另一个问题是,如果对于同一个语料库,我有多个标签可以链接到其中的句子?如果我为同一句子创建多个条目/标签,则会影响最终分类算法的决策。我如何告诉模型每个标签对文档的每个句子都相等?

先谢谢您,

word2vec text-classification tf-idf doc2vec
1个回答
0
投票

您应该尝试多种将句子变成“特征向量”的方法。没有硬性规定。对您的项目最有效的选择将在很大程度上取决于您的特定数据,问题域和分类目标。

© www.soinside.com 2019 - 2024. All rights reserved.