方法logLikelihood和logPerplexity对于Spark LDA不可用，如何测量它们？ [关闭]

Question

我正在尝试获取Spark LDA模型（使用Spark 2.1）的困惑和对数。尽管我可以保存模型，但是下面的代码不起作用（找不到方法logLikelihood和logPerplexity）。

from pyspark.mllib.clustering import LDA
from pyspark.mllib.linalg import Vectors

# construct corpus
# run LDA
ldaModel = LDA.train(corpus, k=10, maxIterations=10)
logll = ldaModel.logLikelihood(corpus)
perplexity = ldaModel.logPerplexity(corpus)

注意：dir(LDA)未提供此类方法。

什么是可行的示例？

Answer 1

我可以训练，但不适合。 'LDA'对象没有属性'fit'

这是因为您正在使用旧的RDD-based API (MLlib)，即

from pyspark.mllib.clustering import LDA # WRONG import

其LDA类确实包含not包括fit，logLikelihood或logPerplexity方法。

为了使用这些方法，您应该切换到新的dataframe-based API (ML)：

from pyspark.ml.clustering import LDA  # NOTE: different import

# Loads data.
dataset = (spark.read.format("libsvm")
    .load("data/mllib/sample_lda_libsvm_data.txt"))

# Trains a LDA model.
lda = LDA(k=10, maxIter=10)
model = lda.fit(dataset)

ll = model.logLikelihood(dataset)
lp = model.logPerplexity(dataset)

方法logLikelihood和logPerplexity对于Spark LDA不可用，如何测量它们？ [关闭]

问题描述投票：1回答：1

1个回答

最新问题

方法logLikelihood和logPerplexity对于Spark LDA不可用，如何测量它们？ [关闭]

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1