是否可以对单个文档使用主题建模

Question

对单个文档使用主题建模是否合理，或者更精确的是，在数学上可以将LDA-gibbs方法用于单个文档。如果是这样，k和种子的值应该是什么。另外，k和种子对单个和大型文档的作用是什么。

K和SEED是函数LDA的变量（在r studio中）。如果我在这个问题的任何地方都错了，也请告诉我。

为了说明我的项目，我试图找出可用于表示单个文档内容的主要主题。

我已经尝试过使用k = 4,7,10。我的问题的一部分也就是k的值应该更好。

Answer 1

这真的取决于文件。一份文件可以是一本700页的书或一个句子。你的k也将依赖于我认为你的主题数量的文件？如果您的文档是整个维基百科语料库，如果您的文档是关于电影的评论列表，那么1500个主题可能是合适的，那么20个主题可能是合适的。可以使用elbow方法检查17来优化该数字。

种子可以是随机的，它只是一个离开者，所以你的结果可以被复制 - 如果你把它留空，它就会运行。我会说尝试并检查你的连贯性，注意你的主题，如果它看起来正确，那么你肯定可以在一个文件上训练LDA。单个文档的处理速度非常快。

这是python中使用种子参数的一个例子。我的数据集是1,048,575行注意种子要高得多：

ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
   num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000, 
   random_seed = 569356958)

是否可以对单个文档使用主题建模

问题描述投票：0回答：1

1个回答

最新问题

是否可以对单个文档使用主题建模

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1