Amazon Sagemaker中用于主题建模的LDA和NTM有什么区别?

问题描述 投票:1回答:1

我正在寻找LDA和NTM之间的区别。在NTM上使用LDA有哪些用例?

根据AWS文档:

LDA:Amazon SageMaker潜在Dirichlet分配(LDA)算法是一种无监督的学习算法,试图将一组观察结果描述为不同类别的混合。 LDA最常用于发现文本语料库中文档共享的用户指定数量的主题。

尽管您可以将Amazon SageMaker NTM和LDA算法都用于主题建模,但是它们是不同的算法,可以期望在相同的输入数据上产生不同的结果。

algorithm topic-modeling
1个回答
0
投票

LDA和NTM具有不同的科学逻辑:

SageMaker LDA(潜在狄利克雷分配,不要与Linear Discriminant Analysis混淆)模型通过假设文档是通过对有限主题集中的单词进行采样而形成的。它由2个移动部分组成:(1)每个主题的单词组成和(2)每个文档的主题组成

SageMaker NTM另一方面没有显式地学习每个主题的单词分布,它是一个神经网络,它使文档通过瓶颈层并尝试再现输入文档(据推测是可变自动编码器(VAE), AWS documentation)。这意味着瓶颈层最终包含所有必要的信息以预测文档的组成,并且其系数可以视为主题。

这里是选择其中一个的注意事项:

  1. [基于SAGEMaker NTM的基于VAE的方法可能比LDA更好地识别相关主题,大概是因为它们可能具有更深的表达能力。 A benchmark here(具有可能与SageMaker NTM不同的VAE-NTM)表明NTM在主题连贯性和困惑性两个指标上都可以击败LDA。
  2. [到目前为止,有关LDA的社区知识似乎比有关VAE,NTM和SageMaker NTM的社区知识更多
  3. 。这意味着可能会更轻松地学习和排除故障。尽管事情变化很快,所以随着DL知识的增长,这一点可能越来越不相关]
  4. [SageMaker NTM具有比SageMaker LDA更灵活的硬件选项,并且可以更好地扩展
  5. :SageMaker NTM可以在CPU,GPU,多GPU实例和多实例上下文上运行。例如,正式的NTM演示使用2个ml.c4.xlarge实例的临时群集。 SageMaker LDA当前仅支持单实例CPU培训。
© www.soinside.com 2019 - 2024. All rights reserved.