除了Doc2Vec嵌入中还有哪些其他功能可用于文档相似性?

问题描述 投票:0回答:1

所以我正在做一个关于文档相似性的项目,现在我的功能仅仅是Doc2Vec的嵌入。由于未显示出任何良好的结果,因此在超参数优化和文档嵌入之前进行词嵌入之后...我还可以添加其他哪些功能以获得更好的结果?我的数据集是150个文档,每个文档500-700个单词,包含10个主题,每个文档都有一个主题。文档在文档级别上标记,并且该标记当前仅用于评估目的。

nlp data-science doc2vec sentence-similarity
1个回答
1
投票

您应该尝试创建2克和3克的TD-IDF,以为每个文档生成矢量表示。您将必须对所有150个文档进行词汇训练。每个文档都有TF-IDF向量后,就可以在它们中的任何两个之间使用余弦相似度。

这里是blog article,其中包含更多详细信息和doc page for sklearn

© www.soinside.com 2019 - 2024. All rights reserved.