解释Doc2Vec向量集群表示

问题描述 投票:0回答:1

我是Doc2Vec的新手,请忍受天真的问题。

我已经生成了Doc2vector得分,即使用'Paragraph Vector'算法。我有一个每个文档的数组输出。

我为doc1使用model.similar并获取输出 - doc5和doc10类似于doc1。

Q1)如何使用代码汇总本文档中的重要单词或高级摘要?

另外,如果我使用数组输出并运行K-means来获得5个簇。如何定义集群定义。

Q2)我可以阅读文档,但文档数量非常高,并且无法进行手动读取以查找群集定义。

text-mining word2vec doc2vec
1个回答
0
投票

Doc2Vec doc-vectors(或同一群集)没有内置的“汇总”功能。

从理论上讲,该模型可以做一些与doc-vector推理相反的事情。它可以采用doc-vector(可能是一个对应于现有文档的) - 然后将其提供给模型,运行模型“forward”,并读出其所有输出节点的激活级别。至少在使用默认负采样的模型中,这些节点与已知的词汇单词一对一地映射,并且您可以合理地对这些激活级别进行排序/缩放,以找到与该文档相关的前N个“最相关”的单词。向量。

您可以查看predict_output_word()Word2Vec方法源,以大致了解这样的计算如何工作:

https://github.com/RaRe-Technologies/gensim/blob/3514d3fb9224280edd8ddd14c46b722220df5436/gensim/models/word2vec.py#L1131

如上所述,这不是现有功能,我不知道有一个在线源代码来进行这样的计算。但是,如果它被实施,它将是一个welcome contribution

(我不确定你的Q2问题究竟是什么。)

© www.soinside.com 2019 - 2024. All rights reserved.