lda 相关问题

Latent Dirichlet Allocation,LDA,是一种生成模型,它允许未观察到的组解释观察集,解释为什么数据的某些部分是相似的。

Spark 2.1.1:如何在Spark 2.1.1中已经训练过的LDA模型中预测未见文档中的主题?

我正在客户评论数据集中在pyspark(spark 2.1.1)中培训LDA模型。现在基于该模型,我想预测新看不见的文本中的主题。我使用以下代码来制作......

回答 1 投票 1

如何获得两个模型的主题一致性得分,然后用它进行比较?

我想让LDA模型的主题一致。假设我有两个带有一包单词的LDA模型,第二个带有一包短语。我如何才能获得这两个模型的连贯性......

回答 1 投票 0

动态主题模型的评估

我尝试评估我的动态主题模型。该模型使用gensim包装器生成。是否有任何可能的功能,如困惑或主题一致性等于“正常”主题建模?

回答 2 投票 1

是否可以对单个文档使用主题建模

对单个文档使用主题建模是否合理,或者更精确的是,在数学上可以将LDA-gibbs方法用于单个文档。如果是这样,k和种子的值应该是什么。还......

回答 1 投票 0

是否可以为scikit-learn LDA设置初始主题分配?

我不想将topic_word_prior设置为参数,而是根据预定义的文字分布来初始化主题。我如何设置这个初始主题分布...

回答 1 投票 0

如何更改LdaMulticore中的默认字数?

默认情况下,LDA在主题中显示10个单词。我希望将这些数字增加15.我尝试过“topn”和“num_words”关键字,但两者都给了我一个错误。我该如何更改此默认值...

回答 1 投票 0

gensim.interfaces.TransformedCorpus - 如何使用?

我在Latent Dirichlet Allocation的世界里相对较新。我能够按照Wikipedia教程生成LDA模型,并且我能够使用自己的文档生成LDA模型。我现在的步骤......

回答 2 投票 2

如何更改LDA中的默认number_words

我能够使用gensim从LDA模型中提取主题。当我打印主题时,它默认显示10个单词的主题。我想在一个主题中显示15个单词。我试图改变它但是......

回答 1 投票 0

TypeError:为参数'dictionary'获取了多个值

我读了其他被问及之前被问过这个错误的问题。但是我仍然没有得到我犯错的地方。当我调用该函数时我得到了这个错误。我是这个论坛的新人,任何帮助......

回答 1 投票 0

Tidy不起作用,给出了这个错误:类LDA_Gibbs的对象没有整洁的方法

此代码显示错误:错误:类LDA_Gibbs的对象没有整洁的方法我不明白为什么.....每当我尝试做test_lda_td2

回答 1 投票 0

ggplot排序轴,带有翻转坐标和刻面图

我有一个看起来像这样的数据集(LDA输出)。 lda_tt%group_by(topic)%>%top_n(10,beta)%>%ungroup()%>%...

回答 1 投票 2

在处理LDA分析的大量单词(> 1亿)时处理内存错误

我有50,000,000个文件 - 总共有1.62亿个单词。我想使用类似于本教程的Gensim进行主题建模。因此,LDA需要一个将文档标记为...

回答 1 投票 0

主题建模工具多语言

在过去的几天里,我一直在尝试使用多种语言的工具理解主题建模。这是我一直试图理解的工具。 HTTPS://code.google.com/p/topic -...

回答 2 投票 1

pyLDAvis:尝试可视化主题时的验证错误

我尝试使用gensim为300000条记录生成主题。在尝试可视化主题时,我收到验证错误。我可以在模型训练后打印主题,但它没有使用pyLDAvis#...

回答 1 投票 4

在函数中返回None:TypeError:类型为'NoneType'的对象没有len()

我正在尝试从LDA中的每个主题打印我的主题和文本。但是打印主题后的“无”会破坏我的脚本。我可以打印我的主题但不打印文本。导入pandas导入numpy为...

回答 3 投票 -1

'种子'在'ldatuning'中做什么来确定LDA主题频率(在R中)?

我一直在尝试不同的方法来确定LDA中的主题频率(在R中)并偶然发现了非常有用的包ldatuning但是无法真正弄清楚控制参数......

回答 1 投票 1

使用主题模型,我们应该如何设置“停用词”列表?

有一些标准的停止列表,可以从语料库中删除“a of of not”之类的单词。但是,我想知道,停止名单是否会逐个变化?例如,我有10K篇文章......

回答 2 投票 4

LDA空间概率文件的主题分布是什么?

我知道LDA模型的创建是概率性的,并且在同一语料库中在相同参数下训练的两个模型不一定是相同的。但是,我想知道这个话题是否......

回答 1 投票 0

为什么我在1中收到错误:nrow(计数):长度为0的参数

我正在使用R中的topicmodels包进行主题建模。我正在创建一个Corpus对象,进行一些基本的预处理,然后创建一个DocumentTermMatrix:library(topicmodels)#Set ...

回答 1 投票 0

删除最常见的单词槌

我从字符串列表创建一个由令牌特征序列组成的实例列表。通过命令行,我可以根据计数,tf-idf等修剪这些数据。(https://github.com/mimno/Mallet/blob / ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.