Amazon Sagemaker中用于主题建模的LDA和NTM有什么区别？

我正在寻找LDA和NTM之间的区别。在NTM上使用LDA有哪些用例？

根据AWS文档：

LDA：Amazon SageMaker潜在Dirichlet分配（LDA）算法是一种无监督的学习算法，试图将一组观察结果描述为不同类别的混合。 LDA最常用于发现文本语料库中文档共享的用户指定数量的主题。

尽管您可以将Amazon SageMaker NTM和LDA算法都用于主题建模，但是它们是不同的算法，可以期望在相同的输入数据上产生不同的结果。

0
投票

LDA和NTM具有不同的科学逻辑：

SageMaker LDA（潜在狄利克雷分配，不要与Linear Discriminant Analysis混淆）模型通过假设文档是通过对有限主题集中的单词进行采样而形成的。它由2个移动部分组成：（1）每个主题的单词组成和（2）每个文档的主题组成

SageMaker NTM另一方面没有显式地学习每个主题的单词分布，它是一个神经网络，它使文档通过瓶颈层并尝试再现输入文档（据推测是可变自动编码器（VAE）， AWS documentation）。这意味着瓶颈层最终包含所有必要的信息以预测文档的组成，并且其系数可以视为主题。

这里是选择其中一个的注意事项：

[基于SAGEMaker NTM的基于VAE的方法可能比LDA更好地识别相关主题，大概是因为它们可能具有更深的表达能力。 A benchmark here（具有可能与SageMaker NTM不同的VAE-NTM）表明NTM在主题连贯性和困惑性两个指标上都可以击败LDA。
[到目前为止，有关LDA的社区知识似乎比有关VAE，NTM和SageMaker NTM的社区知识更多
[SageMaker NTM具有比SageMaker LDA更灵活的硬件选项，并且可以更好地扩展

ml.c4.xlarge