我是Doc2Vec的新手,请忍受天真的问题。
我已经生成了Doc2vector得分,即使用'Paragraph Vector'算法。我有一个每个文档的数组输出。
我为doc1使用model.similar并获取输出 - doc5和doc10类似于doc1。
Q1)如何使用代码汇总本文档中的重要单词或高级摘要?
另外,如果我使用数组输出并运行K-means来获得5个簇。如何定义集群定义。
Q2)我可以阅读文档,但文档数量非常高,并且无法进行手动读取以查找群集定义。
Doc2Vec
doc-vectors(或同一群集)没有内置的“汇总”功能。
从理论上讲,该模型可以做一些与doc-vector推理相反的事情。它可以采用doc-vector(可能是一个对应于现有文档的) - 然后将其提供给模型,运行模型“forward”,并读出其所有输出节点的激活级别。至少在使用默认负采样的模型中,这些节点与已知的词汇单词一对一地映射,并且您可以合理地对这些激活级别进行排序/缩放,以找到与该文档相关的前N个“最相关”的单词。向量。
您可以查看predict_output_word()
的Word2Vec
方法源,以大致了解这样的计算如何工作:
如上所述,这不是现有功能,我不知道有一个在线源代码来进行这样的计算。但是,如果它被实施,它将是一个welcome contribution。
(我不确定你的Q2
问题究竟是什么。)