我想要我的文档的主题分布。然而,Gensim 的 HDP
show_topic()
默认返回 20 个主题。我想他们不应该是最好的。深入挖掘后,我发现总共有 150 个主题,因为代码中的截断级别默认设置为 150 code。
我发现了另一篇文章post,它提供了选择最佳主题数量的方法。但是,即使我们确定了热门主题,我们如何根据已确定的主题来表示新文档?因为
hdp[doc]
再次给出了 150 个主题之间的分布。
HDP 本身应该选择最佳主题数量,这与我们决定主题数量的 LDA 不同。但是,我无法在 Gensim 的实现中实现它。
据我所知,没有方法可以返回形状文档x主题的矩阵。然而,有一种方法可以构建这样的矩阵。你执行:
<gensim.models.hdpmodel.HdpModel>.inference(chunk=single_document)
对于语料库中的每个文档。