标记的LDA +指导LDA主题建模

我对机器学习，NLP和LDA都很陌生，所以我不确定我是否完全正确地接近我的问题;但我试图用已知主题和多个主题选择进行无监督的主题建模。基于Topic modelling, but with known topics?

我可以用每个主题标记我的每一个文档，并且我的无监督集合有效地受到监督（LLDA是一种监督技术）。

阅读本paper我遇到了一些其他潜在的问题 - 首先，我的数据是按类别和子类别组织的。根据文章，LLDA在文本之间具有显着的语义区别更有效 - 我不会特别关注我的相对接近的子类别。此外，该文件指出，LLDA并非设计为多标签分类器。

我希望通过包括GuidedLDA的引导部分来弥补这些弱点（我没有读过关于此的论文，但我确实读过https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164）。

那么有没有任何算法（我会假设LLDA的修改，但我在这个领域并不是很好读），允许人们使用某种形式的直觉来帮助一个无监督的主题模型，其中已知主题类选择多个话题？

至于为什么我不只是使用Guided LDA - 我正计划测试它并看看它有多好（与LLDA一起）。但它也不是为多个标签设计的。

稍微注意一下它是否重要 - 我实际上是在为我的数据使用文档和文字，我读过有关LDA与其他数据类型一起使用的内容。

进一步说明 - 我对Python有相当多的经验，虽然我听说有一个很好的主题建模工具叫做Mallet，我可能会探索但尚未调查（可能它有什么东西吗？）

0
投票

正如您所说，您将试用Guided LDA，您可以通过以下方式获得多个标签：

有一个名为theta发行版的发行版，或者当我们想要获取文档主题时，引导LDA的输出将是一个数组，其中包含每个文档的每个主题的概率。我们通常以最高概率来选择主题。可以根据您的问题设置一个阈值，并选择概率大于该值的主题。

这将帮助您解决具有多个标签问题的无监督引导主题建模。