我有几个适合500万个文档的gensim模型。我想从每个主题的每个模型中抽取前100名最具代表性的文档,以帮助我选择最佳模型。
假设我有一个模型lda
和语料库corpus
,我可以通过以下形式获得主题概率:
topic_probs = lda[corpus]
topic_probs
是元组列表:(topic_num, topic_prob)
。
我如何按主题对这个元组列表进行排序,然后对概率进行排序,然后从语料库中检索前100个文档?我猜答案看起来像method for assigning topics here,但是我在努力在维护文档索引的同时处理元组列表感到困惑。
[ d尽可能避免重新运行它们。)minimum_probability
编写了一个为每个主题选择n个最大概率的函数,然后提取并返回给定原始(非BoW)文本作为列表的文档。假定具有文档索引的列名为“ docs”。数据帧是由上一个函数创建的,从csv读回。
gensim.LdaModel