除了Doc2Vec嵌入中还有哪些其他功能可用于文档相似性？

问题描述投票：0回答：1

所以我正在做一个关于文档相似性的项目，现在我的功能仅仅是Doc2Vec的嵌入。由于未显示出任何良好的结果，因此在超参数优化和文档嵌入之前进行词嵌入之后...我还可以添加其他哪些功能以获得更好的结果？我的数据集是150个文档，每个文档500-700个单词，包含10个主题，每个文档都有一个主题。文档在文档级别上标记，并且该标记当前仅用于评估目的。

nlp data-science doc2vec sentence-similarity

1个回答

1
投票

您应该尝试创建2克和3克的TD-IDF，以为每个文档生成矢量表示。您将必须对所有150个文档进行词汇训练。每个文档都有TF-IDF向量后，就可以在它们中的任何两个之间使用余弦相似度。

这里是blog article，其中包含更多详细信息和doc page for sklearn。

除了Doc2Vec嵌入中还有哪些其他功能可用于文档相似性？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1