如何使用Gensim应用句子级LDA模型?

问题描述 投票:0回答:1

是否可以按照Bao和Datta(2014)的建议使用Gensim应用句子级LDA模型?论文is here

明显的特征是它使“每句话假设一个主题”(第1376页)。这与其他句子级方法不同,后者通常允许每个句子包含多个主题。 “最直接的方法是将每个句子视为一个文件,并将LDA模型应用于句子而不是文档。” (P.1376)。但是,我认为假设一个句子处理一个主题更合理。

谢谢!

python nlp gensim lda
1个回答
1
投票

您可以运行Brody&Elhadad(2010)称之为local-LDA的内容 - 只需逐句将文本数据提供给LDA - 如果您将文档拆分成句子,则很容易。但是,LDA仍会为每个句子提供多个主题(根据定义,您可以获得所有主题的值,尽管gensim的minimum_probabiliy默认值为0.01),这当然与Bao&Datta提出的方法不同。

然而,Bao和Datta(2014)的文章中的supplemental material包含C或C ++(我假设,它在自述文件中没有说明).exe加上材料中的使用说明。你可以从命令行运行它,或写一个wrapper for Python(以gensim格式输出将是锦上添花) - 如果你这样做,请分享你的代码,它可能对其他人有帮助。

© www.soinside.com 2019 - 2024. All rights reserved.