标记的LDA +指导LDA主题建模

问题描述 投票:1回答:1

我对机器学习,NLP和LDA都很陌生,所以我不确定我是否完全正确地接近我的问题;但我试图用已知主题和多个主题选择进行无监督的主题建模。基于Topic modelling, but with known topics?

我可以用每个主题标记我的每一个文档,并且我的无监督集合有效地受到监督(LLDA是一种监督技术)。

阅读本paper我遇到了一些其他潜在的问题 - 首先,我的数据是按类别和子类别组织的。根据文章,LLDA在文本之间具有显着的语义区别更有效 - 我不会特别关注我的相对接近的子类别。此外,该文件指出,LLDA并非设计为多标签分类器。

我希望通过包括GuidedLDA的引导部分来弥补这些弱点(我没有读过关于此的论文,但我确实读过https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164)。

那么有没有任何算法(我会假设LLDA的修改,但我在这个领域并不是很好读),允许人们使用某种形式的直觉来帮助一个无监督的主题模型,其中已知主题类选择多个话题?

至于为什么我不只是使用Guided LDA - 我正计划测试它并看看它有多好(与LLDA一起)。但它也不是为多个标签设计的。

稍微注意一下它是否重要 - 我实际上是在为我的数据使用文档和文字,我读过有关LDA与其他数据类型一起使用的内容。

进一步说明 - 我对Python有相当多的经验,虽然我听说有一个很好的主题建模工具叫做Mallet,我可能会探索但尚未调查(可能它有什么东西吗?)

python machine-learning nlp lda topic-modeling
1个回答
0
投票

正如您所说,您将试用Guided LDA,您可以通过以下方式获得多个标签:

有一个名为theta发行版的发行版,或者当我们想要获取文档主题时,引导LDA的输出将是一个数组,其中包含每个文档的每个主题的概率。我们通常以最高概率来选择主题。可以根据您的问题设置一个阈值,并选择概率大于该值的主题。

这将帮助您解决具有多个标签问题的无监督引导主题建模。

© www.soinside.com 2019 - 2024. All rights reserved.