topic-modeling 相关问题

主题模型描述了文档和文本中主题的频率。 “主题”是一组倾向于一起出现的单词。

'float'对象没有属性'encode'

此代码用于在每个群集上进行索引和排序,以识别哪些是最接近群集质心的前n个(我选择n = 6个)单词。无论如何,我发现了这种错误:'浮动'对象......

回答 1 投票 -1

使用主题模型,我们应该如何设置“停用词”列表?

有一些标准的停止列表,可以从语料库中删除“a of of not”之类的单词。但是,我想知道,停止名单是否会逐个变化?例如,我有10K篇文章......

回答 2 投票 4

为什么我在1中收到错误:nrow(计数):长度为0的参数

我正在使用R中的topicmodels包进行主题建模。我正在创建一个Corpus对象,进行一些基本的预处理,然后创建一个DocumentTermMatrix:library(topicmodels)#Set ...

回答 1 投票 0

主题提取和文本分类之间的概念差异是什么?

我很困惑,文本挖掘的非常相似的服务有不同的名称,如主题提取和文本分类/分类。它们之间的概念差异是什么?话题 ...

回答 1 投票 1

在标记化时从法国文章收缩中删除特殊撇号

我目前正在运行法国报纸Le Monde的一系列文章的stm(结构主题模型)。该模型工作得很好,但我对...的预处理有问题。

回答 2 投票 2

如何使用gensim查看和解释lda模型的输出

我能够创建lda模型并保存它。现在我正在尝试加载模型,并传递一个新文件lda = LdaModel.load('.. \\ models \\ lda_v0.1.model')doc_lda = lda [new_doc_term_matrix] print(...

回答 1 投票 2

如何避免解码为str:在pandas中需要类似字节的对象错误?

这是我的代码:data = pd.read_csv('asscsv2.csv',encoding =“ISO-8859-1”,error_bad_lines = False); data_text = data [['content']] data_text ['index'] = data_text.index documents = data_text它看起来......

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.