解释Doc2Vec向量集群表示

解释Doc2Vec向量集群表示

问题描述投票：0回答：1

我是Doc2Vec的新手，请忍受天真的问题。

我已经生成了Doc2vector得分，即使用'Paragraph Vector'算法。我有一个每个文档的数组输出。

我为doc1使用model.similar并获取输出 - doc5和doc10类似于doc1。

Q1）如何使用代码汇总本文档中的重要单词或高级摘要？

另外，如果我使用数组输出并运行K-means来获得5个簇。如何定义集群定义。

Q2）我可以阅读文档，但文档数量非常高，并且无法进行手动读取以查找群集定义。

text-mining

word2vec

doc2vec

1个回答

0
投票

Doc2Vec doc-vectors（或同一群集）没有内置的“汇总”功能。

从理论上讲，该模型可以做一些与doc-vector推理相反的事情。它可以采用doc-vector（可能是一个对应于现有文档的） - 然后将其提供给模型，运行模型“forward”，并读出其所有输出节点的激活级别。至少在使用默认负采样的模型中，这些节点与已知的词汇单词一对一地映射，并且您可以合理地对这些激活级别进行排序/缩放，以找到与该文档相关的前N个“最相关”的单词。向量。

您可以查看predict_output_word()的Word2Vec方法源，以大致了解这样的计算如何工作：

https://github.com/RaRe-Technologies/gensim/blob/3514d3fb9224280edd8ddd14c46b722220df5436/gensim/models/word2vec.py#L1131

如上所述，这不是现有功能，我不知道有一个在线源代码来进行这样的计算。但是，如果它被实施，它将是一个welcome contribution。

（我不确定你的Q2问题究竟是什么。）

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1