Gensim HDP - 文档的热门主题分布

问题描述 投票:0回答:1

我想要我的文档的主题分布。然而,Gensim 的 HDP

show_topic()
默认返回 20 个主题。我想他们不应该是最好的。深入挖掘后,我发现总共有 150 个主题,因为代码中的截断级别默认设置为 150 code

我发现了另一篇文章post,它提供了选择最佳主题数量的方法。但是,即使我们确定了热门主题,我们如何根据已确定的主题来表示新文档?因为

hdp[doc]
再次给出了 150 个主题之间的分布。

HDP 本身应该选择最佳主题数量,这与我们决定主题数量的 LDA 不同。但是,我无法在 Gensim 的实现中实现它。

python nlp gensim lda topic-modeling
1个回答
0
投票

据我所知,没有方法可以返回形状文档x主题的矩阵。然而,有一种方法可以构建这样的矩阵。你执行:

<gensim.models.hdpmodel.HdpModel>.inference(chunk=single_document)

对于语料库中的每个文档。

© www.soinside.com 2019 - 2024. All rights reserved.