我有很多文档(约有5000个),我想使用Mahout中的tha cvb
(LDA)从中提取一些主题。 它具有许多不同的参数,从潜在主题的数量(-k),最大迭代数量(maxIter),每个文档的最大迭代数量(-mipd),文档主题的平滑(-a),术语主题的平滑(-e),种子(-seed)。 我知道设置参数取决于我的应用程序,但是最佳实践是什么? 例如,建议将-s设置为k / 50。
我对-mipd,-maxIter和-e特别感兴趣。
seqsparse
命令采用的参数怎么样?