所以我正在做一个关于文档相似性的项目,现在我的功能仅仅是Doc2Vec的嵌入。由于未显示出任何良好的结果,因此在超参数优化和文档嵌入之前进行词嵌入之后...我还可以添加其他哪些功能以获得更好的结果?我的数据集是150个文档,每个文档500-700个单词,包含10个主题,每个文档都有一个主题。文档在文档级别上标记,并且该标记当前仅用于评估目的。
您应该尝试创建2克和3克的TD-IDF,以为每个文档生成矢量表示。您将必须对所有150个文档进行词汇训练。每个文档都有TF-IDF向量后,就可以在它们中的任何两个之间使用余弦相似度。
这里是blog article,其中包含更多详细信息和doc page for sklearn。