lda 相关问题

Latent Dirichlet Allocation,LDA,是一种生成模型,它允许未观察到的组解释观察集,解释为什么数据的某些部分是相似的。

使用预定的主题分布初始化Gensim LDA模型

我们可以在确定新文档的主题时,使gensim lda模型使用预定主题分布吗?例如:import gensim texts = [['a','a','a'],['b','b','b'],['c','c','c']] d = gensim.corpora ....

回答 1 投票 0

方法logLikelihood和logPerplexity对于Spark LDA不可用,如何测量它们? [关闭]

我正在尝试获取Spark LDA模型(使用Spark 2.1)的困惑和对数。尽管我可以保存模型,但是下面的代码不起作用(找不到方法logLikelihood和logPerplexity)。 ...

回答 1 投票 1


Python如何使用(i,j)项作为术语索引创建文档矩阵

我在处理文本数据矩阵时遇到以下问题。我也有原始文本文档,存储在列表中。以下是文本数据列表的第一个元素的示例。 ...

回答 1 投票 0

是否可以比较2个非监督模型?

我知道通常很难评估无监督模型。但是,由于我是NLP的新手,所以我想问一下是否可以比较两种主题模型。我有一个STM和LDA模型,...

回答 1 投票 0

我如何测量在R中使用textmineR软件包制作的LDA模型的困惑度分数?

我已经使用textmineR包在R中制作了LDA主题模型,它看起来如下。 ## get textmineR dtm dtm2

回答 1 投票 1

您是否需要标记文本以可视化来自LDA主题模型的数据?

我目前正在使用textmineR包对2016-2019年间的新闻文章运行LDA主题模型。但是,我对R很陌生,我不知道如何显示模型的结果。我想...

回答 1 投票 0

使用textmineR的LDA模型中每个文档的主题标签

我正在使用textmineR使LDA模型适合类似于https://cran.r-project.org/web/packages/textmineR/vignettes/c_topic_modeling.html的文档。是否可以获取每个...的主题标签...

回答 1 投票 0

LDA协方差矩阵与计算出的协方差矩阵不匹配

我希望更好地了解scikit-learn的LDA对象返回的covariance_属性。我确定我遗漏了一些东西,但是我希望它是与...

回答 1 投票 0

如何从现有文本集群中提取主题?

我已经对文本语料库进行了硬聚类(使用tf-idf权重,并获得了〜= 200个聚类。如果我想获得每个群集的主题,该怎么做?我已经尝试在...

回答 1 投票 0

Python WindowsError:[错误123]文件名,目录名称或卷标签语法不正确

我从DARIAH项目网站获得以下代码,以Python进行主题建模。当我在命令外壳中运行脚本时,它开始读取文件,但始终停留在以下位置:**读取文件... ...

回答 1 投票 0

按数据类别的主题建模

我想看看是否有一种方法可以通过使用LDA按类别而不是整个数据集进行主题建模来获取主题。我的数据看起来像这样。评论...

回答 1 投票 0

Gensim LdaMulticore不能正确地进行多处理(仅使用4个工人)

我正在使用Gensim的LDAMulticore执行LDA。我有大约2千8百万个小文档(每个约100个字符)。我给工人的参数是20,但最上面仅用4个过程显示了它。 ...

回答 1 投票 3

主题调制:如何在C中使用LDA作为示例数据?

我想尝试Blie .et.al的LDA -c代码。就像在此链接中一样。我已经编译了代码,并且在终端中运行./lda时,将显示以下结果。用法:lda est [初始字母] ...

回答 2 投票 1

使用ldatuning库在潜在Dirichlet分配模型上查找主题数量时出错

这是结果错误,我可以说这是因为至少有一个文档没有某些术语,但是我不知道为什么以及如何解决它。 prep_fun = function(x){x%>%...

回答 1 投票 0

尝试使用LDA模型在Gensim中获得相似性时出现错误“错误的值太多,无法解包”

我基本上使用的是Anaconda环境python 3.7,gensim 3.8.0。我将数据作为一个数据帧放在测试和训练集中,它们都具有以下结构:X_test和Xtrain ...

回答 1 投票 0

LDA参数的最佳做法是什么?

我有很多文档 约有 个 ,我想使用Mahout中的tha cvb LDA 从中提取一些主题。 它具有许多不同的参数,从潜在主题的数量 k ,最大迭代数量 ma...

回答 0 投票 1

为什么同一迭代的不同运行会产生不同的结果?

我用Gensim LDA模型创建了具有文档主题概率的字典。字典上的每次迭代(即使使用相同的精确代码)也会产生稍有不同的值。为什么是...

回答 1 投票 0

分配类别[关闭]

我需要2个预测和3类,其中,在每个类别的分布遵循具有自己平均向量在所有类的正态分布,共同协方差矩阵,以产生数据。 ...

回答 1 投票 0

为什么random_state参数在NMF和LDA算法中使用?什么是使用每次生成随机话题的好处是什么?

对于主题建模,为什么random_state参数NMF和LDA算法用于?什么是使用每次生成随机话题的好处是什么?

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.