LDA参数的最佳做法是什么?

问题描述 投票:1回答:0

我有很多文档(约有5000个),我想使用Mahout中的tha cvb (LDA)从中提取一些主题。 它具有许多不同的参数,从潜在主题的数量(-k),最大迭代数量(maxIter),每个文档的最大迭代数量(-mipd),文档主题的平滑(-a),术语主题的平滑(-e),种子(-seed)。 我知道设置参数取决于我的应用程序,但是最佳实践是什么? 例如,建议将-s设置为k / 50。

我对-mipd,-maxIter和-e特别感兴趣。

seqsparse命令采用的参数怎么样?

hadoop mahout lda
© www.soinside.com 2019 - 2024. All rights reserved.